FLAG: Foundation Model Representation with Latent Diffusion Alignment via Graph for Spatial Gene Expression Prediction¶
会议: ICML 2026
arXiv: 2605.18055
代码: https://github.com/darkflash03/FLAG
领域: 医学图像 / 空间转录组 / 扩散模型
关键词: 空间转录组, 病理 H&E, 潜在扩散, 图编码器, 基因基础模型对齐
一句话总结¶
FLAG 把"从 H&E 病理图预测空间基因表达"重新表述为结构化分布生成问题,用一个固定的空间图编码器把组织拓扑压成条件向量,再用 DiT 在基因维度去噪,并通过基因基础模型 (GFM) 的中间层对齐注入基因-基因调控先验,从而在保持 PCC/MSE 竞争力的同时把基因结构相关性 (GSC) 和空间结构相关性 (SSC) 拉到新的高度。
研究背景与动机¶
领域现状:空间转录组 (ST) 测序昂贵且通量低,但 H&E 全切片图 (WSI) 在临床中随手可得,因此"从 H&E 预测每个 spot 的基因表达"成为热门方向。主流做法是把它当成逐基因的标量回归:HisToGene、BLEEP、TRIPLEX 直接最小化 MSE,或者 Stem、STFlow 用扩散/flow-matching 沿基因维度生成。
现有痛点:所有这些方法都用 PCC / MSE 这种逐点指标评估,完全忽略了两类对下游通路分析和空间域识别真正重要的结构性质——基因-基因调控关系 (gene-gene network) 和基因-空间分布 (Moran's I)。结果是逐点指标看起来还行,但生成的表达图缺乏连贯的内部结构:要么过度平滑、要么基因之间的协同模式被打散。
核心矛盾:把任务建模成"独立标量回归"和"想恢复完整的多变量分布"之间存在根本冲突。组织→表达的映射本身是一对多的随机映射,回归会把这种方差平均掉。一个自然的修补思路是 graph-diffusion,把 spot 当节点、相关性当边联合扩散;但作者实证发现这条路有一个致命的 Gene Dimension Curse:当基因数 \(G\) 从 50 涨到 800,联合 node-edge 扩散的 PCC 从 \(>0.8\) 一路崩到接近 0,远比 node-only 扩散垮得快。
本文目标:(1) 解释为什么联合扩散在高维基因下必然崩溃;(2) 设计一个能同时尊重 spot-spot 拓扑和 gene-gene 调控、又能扩到 200/800 基因的生成框架;(3) 给出能反映生物结构而非只是逐点精度的评估指标。
切入角度:作者的关键观察是——当 \(G\) 增大时,spot 之间相关性的经验估计会迅速集中到种群值附近,导致"节点-边一致流形" \(\{(\mathbf{X},\mathbf{A}):\mathbf{A}=\mathrm{corr}(\mathbf{X})\}\) 急剧变薄,要拟合这个流形上的得分场需要近乎奇异的梯度幅度,远超有限宽度网络的表达能力。所以问题不在网络架构本身,而在于"把高维相关矩阵也当成扩散目标"这个建模选择。
核心 idea:不要把图当成生成目标,把它当成空间编码器;用固定拓扑的图编码器把 spot-spot 关系一次性压成空间上下文 \(\mathbf{H}_{\text{spatial}}\),让 DiT 只在基因维度去噪;再用预训练 GFM 的基因嵌入对中间表征做表征对齐,把 gene-gene 先验从外部 single-cell 大数据迁过来。
方法详解¶
整体框架¶
输入:一张 H&E WSI 上的 \(S\) 个 spot,每个 spot 有 2D 坐标 \(u_s\)、病理基础模型抽出的视觉特征 \(v_s\)、以及目标基因表达向量 \(x_s\in\mathbb{R}^G\)。整条 pipeline 分两个相对独立的支路:
- 左侧(确定性,一次性编码):把所有 spot 串成一张全连接图,节点条件 \(\mathbf{C}_v\) 是视觉特征,边条件 \(\mathbf{C}_e=[d_{ij}, s_{ij}]\) 拼物理距离和视觉相似度;图编码器输出每个 spot 的空间上下文向量 \(\mathbf{H}_{\text{spatial}}=\mathrm{GraphEncoder}(\mathbf{C}_v,\mathbf{C}_e)\)。
- 右侧(生成式,迭代去噪):以 \(\mathbf{H}_{\text{spatial}}\) 为条件,在基因维度上跑 DiT 扩散:\(\hat\epsilon=\epsilon_\theta(\mathbf{X}_t\mid \mathbf{H}_{\text{spatial}}, t)\)。每隔若干 DiT block 取出隐藏态 \(\mathbf{H}^{(k)}\in\mathbb{R}^{B\times G\times d_h}\),与从 Geneformer / scGPT 离线抽好的 per-gene 嵌入 \(\mathbf{F}\in\mathbb{R}^{G\times d_e}\) 做余弦对齐。
去噪结束就拿到 \(S\times G\) 的预测表达矩阵,可以同时算 PCC / MSE 和 GSC / SSC。
关键设计¶
-
从联合 node-edge 扩散到空间-条件分解(核心架构决策):
- 功能:彻底回避 Gene Dimension Curse,把生成目标的维度从 \(G+N\) 压回 \(G\)。
- 核心思路:作者先尝试一种 motivating 方案,把节点 \(\mathbf{X}\) 和潜在边 \(\mathbf{A}=\mathrm{corr}(\mathbf{X})\) 一起放进 graph diffusion,并设计 Edge-Modulated Attention,让边状态以"结构门控 \(1+\mathrm{Linear}(\mathbf{A}_{t,ij})+\alpha\mathrm{Linear}(\mathbf{C}_{e,ij})\)"和"结构偏置"两路调制 QK 注意力分数;同时加一致性损失 \(\mathcal{L}_{\text{cons}}=\mathbb{E}_t\|\hat{\mathbf{A}}_0-\mathrm{Corr}(\hat{\mathbf{X}}_0)\|_1\) 强行让边和基于节点算出的相关阵闭合。在 \(G=50\) 时这套方案配合 Oracle correlation edges 能显著提升 PCC,验证了"潜在功能拓扑确实有价值"。但形式化分析给出 \(\mathcal{L}^*_{\text{joint}}(G)-\mathcal{L}^*_{\text{node}}\ge\Omega(G)\) 的下界,意味着随 \(G\) 线性增长的优化惩罚不可避免。FLAG 的对策是反过来用图——固定拓扑、只做编码,把"spot-spot 关系"完成一次性聚合,再让 DiT 在基因方向上做 gene-to-gene attention。
- 设计动机:这一步等于把"图当生成目标"换成"图当条件信号",相当于把高维联合分布分解成 \(p(\mathbf{X}\mid\mathbf{H}_{\text{spatial}})\);spot 间结构由图编码器一次性吸收掉,而扩散模型只需要专心做 gene-gene 联合分布,既保留了 graph-diffusion 想要的空间正则化,又避开了相关矩阵的曲率爆炸。
-
Gene Foundation Model (GFM) 表征对齐:
- 功能:弥补 ST slide 数据量小、基因覆盖窄的统计劣势,把 scGPT / Geneformer 等在数千万 single-cell 上学到的 gene-gene 关系迁到 DiT 的中间层。
- 核心思路:离线从预训练 GFM 抽出 per-gene 嵌入 \(\mathbf{F}\) 并冻结,推理阶段完全不用;训练时在某个中间 DiT block 取 hidden \(\mathbf{H}^{(k)}\),过一个轻量 MLP 映射到 GFM 嵌入空间,用余弦相似度反向当损失 \(\mathcal{L}_{\text{align}}=-\langle\mathrm{MLP}(\mathbf{H}^{(k)}),\mathbf{F}\rangle / (\|\cdot\|\|\cdot\|+\epsilon)\)。这套做法本质上是把视觉生成里 REPA / SVG 那一脉"扩散状态对齐冻结编码器特征"的思路平移到生物领域。
- 设计动机:ST 数据只能看到几千个 spot 上的几百到几千个基因,没法可靠估计基因-基因协方差;而 GFM 在数百万到上亿 cell 上学过的基因嵌入已经编码了通路和调控结构。在中间层做对齐而不是在输入侧拼接,是因为想保留扩散模型本身的去噪自由度,又给它一个全局生物先验作"软约束"。
-
结构化评估指标 GSC / SSC 和总损失:
- 功能:把"生成的表达图有没有保住生物结构"从主观印象变成可量化指标。
- 核心思路:GSC 衡量基因-基因调控完整度,比较预测和真值在基因维上的相关矩阵;SSC 用每个基因的 Moran's I 衡量空间自相关是否被保住,直接对应下游空间域识别和 marker 发现。最终训练目标为 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{score}}+\lambda_{\text{align}}\mathcal{L}_{\text{align}}\),其中 \(\mathcal{L}_{\text{score}}\) 是标准 DDPM 得分匹配损失。
- 设计动机:之前所有 ST 论文只看 PCC / MSE,导致"逐基因数字漂亮但表达图全是糊的"成为通病。GSC / SSC 才是病理学家真正关心的(用来做通路分析、空间域聚类),这一对指标让"结构忠实度"成了可以优化的一阶目标。
损失函数 / 训练策略¶
- 主损失:标准 \(\epsilon\)-prediction 得分匹配 \(\mathcal{L}_{\text{score}}\)。
- 辅助损失:GFM 余弦对齐 \(\mathcal{L}_{\text{align}}\),权重 \(\lambda_{\text{align}}\) 较小(数量级 \(10^{-1}\sim 10^{0}\))。
- 数据:HEST-1k 中的 HER2ST / KIDNEY / PRAD 三个 cohort,按 slide 级 7:2:1 分;目标基因用 High-Mean & High-Variance Gene (HMHVG) 选 Top-200。
- 硬件:单卡 NVIDIA H800。
实验关键数据¶
主实验¶
HEST-1k 三个数据集上的 Top-200 HMHVG 评估,按 slide 级 mean ± std 报:
| 数据集 | 指标 | 之前 SOTA (生成式) | 之前 SOTA (判别式) | FLAG | 关键提升 |
|---|---|---|---|---|---|
| HER2ST | PCC ↑ | STFlow 0.706 | TRIPLEX 0.691 | 0.684 | 与最强基线相当 |
| HER2ST | GSC ↑ | Stem 0.832 | TRIPLEX 0.559 | 0.893 | 结构相关性 +6 pt |
| HER2ST | SSC ↑ | Stem 0.381 | TRIPLEX 0.071 | 0.639 | Moran's I 一致性 +26 pt |
| KIDNEY | PCC ↑ | STFlow 0.315 | TRIPLEX 0.374 | 0.392 | 高出判别式最强基线 |
| KIDNEY | GSC ↑ | Stem 0.845 | BLEEP 0.533 | 0.871 | 调控结构最优 |
| PRAD | SSC ↑ | STFlow 0.564 | TRIPLEX 0.634 | 0.751 | 空间分布最忠实 |
读出来三条主要信号:FLAG 的逐点精度 (PCC/MSE) 和最强判别式/生成式基线咬得很紧、互有胜负;但 GSC 和 SSC 几乎在所有数据集都拿到第一,差距明显(HER2ST SSC 0.639 vs STFlow 0.289),证明结构忠实度才是真正被推动的维度。
消融实验¶
HER2ST 上拆解三大组件:
| 配置 | PCC ↑ | MSE ↓ | GSC ↑ | SSC ↑ | 说明 |
|---|---|---|---|---|---|
| Full FLAG | 0.684 | 0.734 | 0.893 | 0.639 | 完整模型 |
| w/o GFM Alignment | 0.668 | 0.794 | 0.871 | 0.589 | 去掉生物先验,PCC/SSC 都掉,证明 GFM 是生物保真度的关键 |
| w/o Spatial Graph | 0.630 | 0.850 | 0.903 | 0.340 | 砍掉图编码器,SSC 几乎腰斩 (0.64→0.34),说明图就是空间结构来源 |
| w/o Diffusion (Supervised) | 0.675 | 0.786 | 0.322 | 0.569 | 用确定性回归替换扩散主干,PCC 几乎不掉但 GSC 直接崩 (0.89→0.32) |
关键发现¶
- 扩散是反过平滑的关键:拿掉扩散换成有监督回归后,GSC 从 0.89 暴跌到 0.32,证明 PCC 看不出来的"基因调控结构崩塌"被生成式建模拦下来了——这是对"判别式模型为什么生不出结构"的最直接证据。
- 图和 GFM 是正交的两套先验:图主管 SSC(空间),GFM 主管 GSC(基因),二者去掉任一项掉点方向不同;说明 FLAG 的因子分解干净,不是把同一个信号绕一遍。
- Gene Dimension Curse 实证:随 \(G\in\{10,50,100,200,400,800\}\) 增大,joint node-edge diffusion 的 PCC 从 \(>0.8\) 一路掉到接近 0;node-only 从 0.8 掉到 0.2;FLAG 在 \(G=800\) 仍然保持显著更高的 PCC,对维度的鲁棒性是质变。
- 下游任务才是真考验:在 HER2ST 上 DEG (Differentially Expressed Gene) Top-50 重合率 0.500、空间域聚类 ARI 0.845 / NMI 0.914,全面碾压所有基线(次优 STFlow ARI 0.600)——结构性指标的提升直接翻译成可用的生物发现。
亮点与洞察¶
- 把"图当生成目标 vs 图当条件信号"提到方法论层面来对比,并给出 \(\Omega(G)\) 下界证明为什么前者必败,是很罕见的"先用理论给自己之前的尝试判死刑、再据此设计 v2"的诚实写作。
- GFM 中间层对齐这个 trick 是从 REPA / SVG 那一脉视觉扩散里偷过来的,把"frozen encoder 当生成模型的语义裁判"从 ImageNet 迁到 single-cell,未来很可能在分子设计、蛋白结构生成里被反复 cite。
- 提出 GSC / SSC 几乎是给整个 WSI→ST 子领域换了一套评估语言;如果被采纳,过去靠 PCC 排名的 SOTA 排行榜会被洗一遍。
- 整套框架是"图编码器 + 条件扩散 + 外部基础模型对齐"的非常清晰的三段式结构,技术上几乎每一块都可以平移到别的"高维多变量 + 弱标注 + 有相邻基础模型"场景(如 scRNA-seq 模态对齐、多组学融合、空间蛋白组)。
局限与展望¶
- 评估只在 HEST-1k 三个 cohort,同一组织内 split,没做 zero-shot 跨组织泛化;GFM 嵌入对未见组织的迁移性是开放问题。
- 扩散模型的推理迭代代价较高,没有给出与 STFlow(flow matching 通常更快)公平的延迟对比;临床部署还需要做蒸馏或一致性模型。
- GFM 嵌入是离线、冻结、per-gene 单向量,没有显式建模基因在不同组织/细胞类型下的语境差异;未来可以替换为 context-aware 的细胞-基因联合嵌入。
- HMHVG Top-200 是"挑容易的基因评估",对超低表达 / 高噪声基因的性能未必同样亮眼;扩到全基因组 (~20K) 是不是还能保持 Gene Dimension Curse 的免疫力,论文只跑到 \(G=800\),没给出最终答案。
相关工作与启发¶
- vs Stem (条件扩散 on H&E):Stem 在每个 spot 内做 gene-gene attention 但忽略 spot-spot;FLAG 用图编码器先吃掉空间结构、再让 DiT 专心做基因维度,因此 SSC 大幅领先(HER2ST 0.64 vs 0.38)。
- vs STFlow (flow matching):STFlow 用 graph attention backbone 整体生成,spot-spot 容易"超相关",Moran's I 散点偏向对角线上方;FLAG 解耦后散点紧贴对角线,定量上 SSC 提升一档。
- vs 判别式 TRIPLEX:TRIPLEX 是 PCC 最强的判别式基线,但其 GSC 仅 0.56,过度平滑导致基因调控网络坍塌;FLAG PCC 与其相当,但 GSC / SSC 全面胜出,说明生成式 + 结构先验在"结构保真度"上对判别式有结构性优势。
- vs REPA / SVG (视觉扩散表征对齐):FLAG 把同一套"对齐冻结预训练表征"的思想从图像扩散迁到 ST 任务,并把对齐对象换成 GFM;提供了一个跨模态借鉴的好范例。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把"graph as condition + GFM alignment"组合首次系统化用在 WSI→ST,并配套提出 Gene Dimension Curse 与 GSC/SSC 两个一手概念。
- 实验充分度: ⭐⭐⭐⭐ 三数据集 + 完整消融 + Gene Dimension 扫描 + 两个下游任务 (DEG / 空间聚类),但未跨组织 / 未到全基因组。
- 写作质量: ⭐⭐⭐⭐⭐ 从 motivating attempt 到失败分析到 v2 设计的叙事链非常清晰,几乎是 ICML 标准教学范本。
- 价值: ⭐⭐⭐⭐⭐ 同时推动了方法 (扩散+图+GFM) 和评估 (GSC/SSC),对计算病理学社区有重塑评估标准的潜力。