跳转至

Histopathology-Genomics Multi-modal Structural Representation Learning for Data-Efficient Precision Oncology

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=24QX6XpvSL
代码: https://github.com/WkEEn/MSRL
领域: 医学图像 / 计算病理 / 多模态表征学习
关键词: 病理-基因组多模态、缺失模态、图结构学习(GSL)、生存预测、数据高效推理

一句话总结

MSRL 用图结构学习预训练一张「病理-基因组」跨病例关联图,并在微调阶段借助一个存了真实基因组特征的 buffer,让推理时只有病理切片(WSI)的病例也能"借"到诊断相关病例的真实基因信息,从而在基因组缺失场景下逼近完整多模态融合的精度。

研究背景与动机

领域现状:融合病理全切片图像(WSI)和基因组数据已成为精准肿瘤学的主流范式——WSI 提供形态学/细胞组织信息,基因组提供分子层面的微环境刻画,二者互补能给出更个性化的病例表征。但基因组测序成本高、流程复杂,真实临床里大量病例只有 WSI 而没有配对的基因组数据。

现有痛点:为应对推理时基因组缺失,已有工作走两条路线:(1) 训练时加一个辅助任务,用重建损失或蒸馏损失把 WSI 和基因组建立关联,推理时用学到的 prompt 顶替缺失模态;(2) 用生成式方法(如条件 VAE)从 WSI 合成基因组特征。这些方法都有两个共性缺陷:

  • 只看单个病例,忽视病例间关联:重建只依赖当前病例自己的 WSI 去预测基因组,关注 intra-case 的模态对齐,却丢掉了对癌症诊断至关重要的 inter-case 关联。
  • 训练集里真实的基因组数据被白白浪费:推理时基因组被完全"凭空合成",而训练集中那些诊断相关病例本就有真实基因组数据,方法却没去利用它们,导致合成特征不真实、信息量不足。

核心矛盾:缺失模态要"补全",但纯凭单病例 WSI 合成出来的基因组既不真实又割裂了病例间的诊断关联——高维(d=768)、样本远少于维度的低秩基因组分布,让 VAE 这类生成器很容易采样出噪声。

本文目标:在推理只用单一 WSI 模态的前提下,既显式建模病例间关联,又能调用训练集里真实的基因组数据作为结构化先验,把缺失基因组"补"得更可信。

核心 idea[结构化关联补全] 不再逐病例凭空生成基因组,而是预训练一张多模态关联图来刻画病例间的诊断相关性,再用一个 buffer 缓存训练病例的真实多模态特征;推理时把当前只有 WSI 的病例接入这张图,通过图传播从"诊断相关的真实病例"那里聚合到可靠的基因组信息。

方法详解

整体框架

MSRL 分两阶段。预训练阶段用 TCGA 泛癌(6,361 例完整配对数据)做自监督图结构学习(GSL),对齐 WSI 与基因组的表征空间并构建跨病例关联图;微调/推理阶段采用 online-target 双分支 + buffer:target 分支吃完整多模态数据、只在训练时激活、用 EMA 更新,指导只吃 WSI 的 online 分支学会补全缺失基因;buffer 用 FIFO 缓存训练病例的真实多模态特征,推理时把当前病例与 buffer 里的病例一起组图前向,借真实数据完成补全。

flowchart TB
    subgraph PT[阶段一: 多模态结构表征预训练]
        WSI1[WSI Encoder] --> GH[病理图 G_H]
        GEN1[Gene Encoder] --> GG[基因图 G_G]
        GH --> FUS[融合图 G_F]
        GG --> FUS
        GH -. Intra GSL .-> L1[L_intra]
        GG -. Intra GSL .-> L1
        GH -. Inter GSL .-> L2[L_inter]
        GG -. Inter GSL .-> L2
        FUS -. Fused GSL .-> L3[L_fused]
    end
    subgraph FT[阶段二: 双分支微调 + 推理]
        ON[Online 分支: WSI + Inductor] --> GF1[Graph Forward]
        TG[Target 分支: 完整多模态, EMA] --> GF2[Graph Forward]
        BUF[(Buffer: 真实多模态特征 FIFO)] --> GF1
        TG --> BUF
        GF1 --> ALIGN[分层对齐 L_f/L_g/L_s + L_task]
        GF2 --> ALIGN
    end
    PT --> FT

关键设计

1. 多视角自监督图结构学习(GSL)预训练:把"谁和谁诊断相关"从数据里学出来。 GSL 的核心是一个参数化 graph learner,它不需要预先给定邻接矩阵,而是从节点特征自适应地推断出最优图结构(Algorithm 1:逐层做 Hadamard 加权 \(z_i^{(l)}=E_i^{(l-1)}\odot\omega^{(l)}\),再用 \(S=E^{(L)}(E^{(L)})^T\) 算相似度并后处理成 refined 邻接矩阵 \(A_r\))。预训练用三类约束塑造这张图:intra-modality 用对比学习挖同一模态内的病例关联——把 refined 图 \(A_r^H\) 和随机增广图 \(A_{aug}^H\) 各过一遍 GCN,用 InfoNCE 拉近同病例、推远异病例 \(L_{InfoNCE}(Z_H;Z_H^{aug})=-\sum_k \log\frac{\exp(\text{sim}(z_k,z_k^{aug})/\tau)}{\sum_i \exp(\text{sim}(z_k,z_i^{aug})/\tau)}\);inter-modality 用 InfoNCE 对齐同病例的病理与基因表征,把两模态结构拉到统一空间;fused-modality 再约束融合表征 \(Z_F\) 同时保留病理与基因的特性。三者合成 \(L_{gsl}=L_{intra}+L_{inter}+L_{fused}\)。泛癌大数据让学到的关联更泛化,对齐后的基因组编码器也能直接迁移到下游。

2. Buffer + 双分支:把训练集里的真实基因组当成可调用的"结构先验"。 训练集 \(D_{train}=\{X_G^s,X_I^s,y^s\}\) 有完整模态,测试集 \(D_{test}=\{X_I^s,y^s\}\) 只有 WSI。buffer 初始化为训练病例真实多模态特征 \(D_{buffer}=\{\text{concat}(\phi_G(X_G^s),\phi_H(X_I^s))\}\),并用 target 分支输出按 FIFO 滚动更新,保证缓存表征始终新鲜。微调时 target 分支吃真实完整数据、online 分支只吃 WSI,二者用 mixup 增广产生不同视角;关键在 Graph Forward:把当前病例特征和 buffer 里其他病例一起 readout 成 \(F\),再 \(A_r=\text{GSL}(F)\)\(Z=\text{GCN}(A_r,F)\)——也就是说当前只有 WSI 的病例,通过这张动态图和 buffer 里真实的基因组特征建立关联,缺失基因信息在图传播中被补全。这正是它区别于"凭空生成"路线的根本:补全的依据是真实的、诊断相关的邻居,而非单病例幻觉。

3. Inductor:给 online 分支一个基因组占位符,让单模态也能进图。 online 分支没有基因组输入,MSRL 设计 Inductor 模块——它复用基因组编码器同款的 SNN 架构,但输入是 WSI 表征,输出一个"基因组 prompt"作为缺失数据的占位。这个 prompt 与 WSI 表征拼成 online 分支的多模态表征 \(f=\text{concat}(g,h)\),随后在 Graph Forward 里通过跨病例关联被真正补全。推理时 \(g\leftarrow\text{Inductor}(h)\) 估计缺失基因,再走一遍 online Graph Forward 用 \(Z\) 预测,从而实现单 WSI 模态的数据高效推理。

4. 分层对齐损失:在"图前/图后/结构"三个层级把 online 对齐到 target。 微调用分层 InfoNCE 同时约束图学习前后的特征:\(L_{f\_align}=L_{InfoNCE}(f,\hat f)\)(图前融合特征)、\(L_{g\_align}=L_{InfoNCE}(Z,\hat Z)\)(图后 GCN 表征),保证 online 分支稳定且充分地学到真实多模态表征。结构层面用稀疏平衡 BCE 对齐 online 图 \(A_r\) 与 target 图 \(\hat A_r\):由于 \(\hat A_r\) 里零元素远多于非零(\(c_0\gg c_1\)),给两类元素加缩放因子 \(\alpha_0=\frac{c_0+c_1}{2c_0}\)\(\alpha_1=\frac{c_0+c_1}{2c_1}\) 来平衡。总损失 \(L_{fine\_tune}=L_{f\_align}+L_{g\_align}+L_{s\_align}+L_{task}\) 只更新 online 分支,target 分支靠 EMA 更新防止表征坍缩。

实验关键数据

数据:TCGA 泛癌 7,263 例(32 癌种、12 原发部位),预训练 6,361 例无诊断信息;下游评测 6 个 TCGA 队列 + 2 个外部 CPTAC 队列。WSI 编码用 GigaPath(ViT-giant patch 编码 + LongNet slide 编码),基因按功能分组各过独立 SNN。

主实验:生存预测(C-Index,5 个队列)

方法 模态 Overall C-Index
PANTHER (WSI 最强无预训练) h. 0.5967
TITAN (WSI 基础模型) h. 0.6007
MSRL_H (本文,纯 WSI) h. 0.6131
G-HANet g.+h.→h. 0.6246
LD-CVAE g.+h.→h. 0.6313
DisPro g.+h.→h. 0.6414
MSRL (训练多模态/推理 WSI) g.+h.→h. 0.6558
SurvPath (完整多模态融合) g.+h. 0.6683
MSRL_multi (完整多模态) g.+h. 0.6794

缺失模态设定下 MSRL 比 G-HANet / LD-CVAE / DisPro 分别高 3.12% / 2.45% / 1.44% C-Index,并逼近甚至追平完整多模态融合方法(MCAT 0.6455、CMTA 0.6547);完整多模态变体 MSRL_multi 反超第二名 1.03%。

精准诊断(4 任务,AUC)

方法 BRCA 分期 NSCLC 分期 EGFR 突变 HER2 状态
TITAN 0.648 0.639 0.822 0.693
G-HANet 0.632 0.634 0.830 0.715
LD-CVAE 0.646 0.650 0.836 0.717
MSRL 0.664 0.661 0.842 0.730

MSRL 在四项全部最优,比次优 LD-CVAE 的 AUC 高 1.8%/1.1%/0.6%/1.3%。

消融实验

变体 Overall C-Index
KNN (Euclidean) 静态图 0.6009 (↓0.0549)
KNN (cosine) 静态图 0.6086 (↓0.0472)
MSRL_random GSL (不预训练) 0.6369 (↓0.0189)
MSRL_online buffer (用 online 特征更新 buffer) 0.6451 (↓0.0107)
MSRL (完整) 0.6558

GSL 预训练贡献 +1.89%,且 random GSL 仍优于两种 KNN——说明学到的图捕捉的是隐式诊断关联而非单纯相似度;用 target 真实特征更新 buffer 比用 online 特征好 +1.07%。损失消融显示去掉结构对齐 \(L_{s\_align}\) 性能掉得最狠,小数据集上甚至无法收敛。

关键发现

  • 静态相似度图远不如学出来的图:KNN(余弦/欧氏)比完整 MSRL 低 4.7%~5.5%,GSL 学的是"诊断相关"而非"特征相似"。
  • 真实数据 > 凭空生成:G-HANet/LD-CVAE 因高维低秩基因组分布难拟合、采样噪声大而落后;MSRL 用 buffer 里的真实基因组做结构引导,绕开了生成噪声。
  • 强泛化:外部 CPTAC 上 DisPro C-Index 掉 4.77%,MSRL 只掉 1.02%。
  • 修复了 WSI 编码器被基因噪声"带偏"的问题:从头训练引入高维基因噪声会损害 WSI 形态学表征,而 MSRL_H 纯 WSI 就比 GigaPath 基线 F1 提升 1.3%~3.5%。

亮点与洞察

  • 把"缺失模态补全"从生成范式换成检索/结构范式:不让模型幻觉基因组,而是从诊断相关的真实病例里"借",规避了低秩高维分布下生成器采样噪声的根本难题——这个视角切换是本文最有价值的洞察。
  • buffer + 双分支 + EMA 的组合很巧:target 分支提供真实多模态监督、buffer 把训练集真实信息持久化、online 分支只需 WSI 即可推理,三者让"训练用多模态、推理用单模态"自然成立。
  • GSL 捕捉的是诊断关联而非相似度:这一点被 KNN 对照实验干净地证明,对计算病理里"病例间关系如何建模"有普适启发。

局限与展望

  • buffer 依赖训练集的真实基因组覆盖度:若训练集本身基因组配对就稀疏,或测试病例与训练分布差异大,可借的真实邻居质量会下降。
  • 图规模与可扩展性:邻接矩阵 \(K\times K\) 随病例数增长,大规模部署时 GSL/GCN 的计算与显存成本、buffer 的 FIFO 容量如何权衡,正文未充分讨论。
  • 仅评测 TCGA/CPTAC 泛癌:真实临床里染色批次、扫描仪、人群差异更大,跨中心鲁棒性仍需更广验证。
  • 未来可探索把"真实邻居检索"与"轻量生成"结合,在邻居稀疏区用生成兜底、在密集区用真实数据主导。

相关工作与启发

  • 多模态融合:MCAT(病理 patch 注意基因)、CMTA(双编解码对齐)、SurvPath(基因通路 token + 高效 Transformer)、MOTCat(最优传输)、PIBD(原型信息瓶颈)——MSRL 指出 MCAT 单向增强、CMTA 用 WSI 模块编码基因破坏序列结构等问题,并用 inter-modality 约束 + 基因专用编码改进。
  • 缺失模态重建/蒸馏:G-HANet(代理基因重建分支)、LD-CVAE(条件隐变量 VAE 生成)、DisPro(LLM 蒸馏 prognostic 知识到 prompt)——共性缺陷是只看单病例、推理时不用真实基因组,正是 MSRL 的切入点。
  • 图结构学习(GSL):从 Franceschi、Liu 等的可微图结构学习,到 Liu/Li/Zhao 引入对比学习做无监督 GSL、Shen 扩展到多重图——MSRL 把无监督多重图 GSL 用到多模态病理-基因组关联建模,是一个落地新场景。

评分

  • 新颖性: ⭐⭐⭐⭐ 把缺失模态补全从"生成"转向"基于真实邻居的结构化检索",buffer+GSL 的组合在计算病理多模态里是新颖且自洽的范式切换。
  • 实验充分度: ⭐⭐⭐⭐ 7,263 例泛癌、生存预测+4 项精准诊断+外部 CPTAC 泛化+结构/损失双重消融,覆盖全面且统计显著性标注完整。
  • 写作质量: ⭐⭐⭐⭐ 动机-缺陷-方案的逻辑链清晰,图1对四类范式的对比、双分支/buffer 的算法伪代码到位;部分符号(GF、readout 细节)需配合附录。
  • 价值: ⭐⭐⭐⭐ 直击"基因组测序贵、临床常缺失"的真实痛点,推理只需 WSI 却逼近完整多模态精度,对精准肿瘤学落地有实际意义,代码已开源。