HINGE: Adapting a Pre-trained Single-Cell Foundation Model to Spatial Gene Expression Generation from Histology Images¶

会议: CVPR 2026
arXiv: 2603.19766
代码: https://github.com/donghaifang/HINGE
领域: 生物医学图像 / 生成模型
关键词: 空间转录组学, 单细胞基础模型, 掩码扩散, 组织学条件生成, SoftAdaLN

一句话总结¶

提出HINGE框架，首次将预训练的表达空间单细胞基础模型(sc-FM, CellFM)改装为组织学图像条件的空间基因表达生成器，通过恒等初始化的SoftAdaLN调制轻量注入视觉上下文、表达空间掩码扩散过程对齐预训练目标、warm-start课程稳定训练，在三个ST数据集上达SOTA并保持优越的基因共表达一致性。

研究背景与动机¶

领域现状：空间转录组学(ST)可原位测量基因表达，但成本高通量低。从H&E组织学切片(常规获取)直接预测空间基因表达是实用替代方案。

两类现有方法：(1) 确定性回归(ST-Net/HisToGene/TRIPLEX)——将组织学patch映射为表达向量，但忽略固有的生物随机性；(2) 条件生成(Stem/STFlow)——建模条件分布更灵活，但不建模基因-基因依赖关系——这些关系仅从组织学图像难以推断。

单细胞基础模型(sc-FM)的潜力：scGPT/CellFM等在大规模scRNA-seq上预训练，编码了丰富的基因-基因调控和共表达关系。但它们是纯表达空间模型，缺乏视觉通路。

四重适配挑战：(a) 模态鸿沟——sc-FM无视觉通路；(b) 目标不匹配——sc-FM用掩码自编码预训练，但扩散模型用高斯噪声扰动全部输入；(c) 组成偏移——scRNA-seq=单细胞，但ST=混合细胞簇；(d) 有限监督——ST数据量小+噪声大→全微调易灾难性遗忘。

核心idea：冻结sc-FM骨干 + 恒等初始化的SoftAdaLN轻量注入组织学+时间步条件 + 掩码扩散过程对齐掩码自编码预训练 + warm-start课程稳定早期训练。

方法详解¶

整体框架¶

冻结CellFM Transformer骨干 → 每层MHA和SGLU子层前插入SoftAdaLN(恒等初始化) → 冻结组织学编码器 \(\phi\) 提取视觉嵌入 → 掩码扩散前向(逐步增加掩码比例)和反向(逐步揭示被掩码基因) → warm-start课程初始采样低掩码时间步 → 输出条件基因表达向量。

关键设计¶

SoftAdaLN条件注入（解决模态鸿沟+防止遗忘）:
- 功能：在CellFM的每个Transformer子层前插入轻量条件调制
- 核心思路：组织学嵌入 \(\mathbf{v}=\phi(\mathbf{c})\) 和时间步嵌入 \(\mathbf{e}_t\) 拼接→共享变换 \(\mathbf{c}_t = \varphi_{cond}([\mathbf{v}; \mathbf{e}_t])\)→每子层的SoftAdaLN： \(\text{SoftAdaLN}(\mathbf{h}|\mathbf{c}_t) = \text{SoftNorm}(\mathbf{h}) \odot (1+\mathbf{s}(\mathbf{c}_t)) + \boldsymbol{\kappa}(\mathbf{c}_t)\) SoftNorm是标准LN的软化版本：\(\text{SoftNorm}(\mathbf{h}) = (1-\eta)\mathbf{h} + \eta \cdot \frac{\mathbf{h}-\mu}{\sigma+\varepsilon}\)
- 恒等初始化：\(\eta=0\)（SoftNorm退化为恒等），\(\mathbf{s}=\mathbf{0}\)，\(\boldsymbol{\kappa}=\mathbf{0}\)，门控 \(\boldsymbol{\tau}\approx\mathbf{1}\) → 初始时精确恢复原始CellFM行为
- 仅训练调制参数 \(\{\eta, \theta_\varphi, \theta_s, \theta_\kappa, \theta_\tau\}\)，CellFM和图像编码器完全冻结
- 设计动机：恒等初始化确保预训练基因关系在开始时完全保留→训练过程中渐进地学习注入组织学信息→参数高效(仅调制层)避免小数据集上的遗忘
表达空间掩码扩散过程（解决目标不匹配）:
- 功能：设计与sc-FM掩码自编码预训练对齐的扩散过程
- 前向过程：对基因表达向量的各分量独立应用Bernoulli掩码(非高斯噪声)，掩码率按功率调度 \(\bar{\alpha}_t = (1-t/T)^\zeta\) 递增。\(t=0\)时全可见，\(t=T\)时全掩码
- 反向过程：从全掩码+全零状态开始→每步预测被掩码分量→解掩已有分量保持不变→逐步揭示完整基因表达
- 训练目标：\(\mathcal{L}(\theta) = \mathbb{E}[w_t \|(1-\mathbf{m}_t) \odot (f_\theta(\mathbf{x}_t, t, \phi(\mathbf{c})) - \mathbf{x}_0)\|_2^2]\)，仅在掩码位置计算损失
- 对齐关键：输入形式(部分掩码的观测)和监督模式(仅在掩码位置)都与CellFM的掩码自编码预训练一致→有效利用预训练知识
- 设计动机：标准高斯扩散对每个分量添加噪声→输入分布与掩码自编码完全不同→知识迁移受阻。掩码扩散桥接了这一鸿沟
Warm-start课程（稳定训练）:
- 功能：初始训练时优先采样低掩码时间步
- 核心思路：在微调开始的几个epoch中，采样器偏向靠近\(t=0\)的时间步(少量基因被掩码)→渐进过渡到均匀采样(高掩码)
- 设计动机：低掩码=大多数基因可见=更接近CellFM在预训练时看到的输入→稳定早期梯度更新→避免早期不稳定导致的遗忘

推理过程¶

给定组织学patch \(\mathbf{c}\)：初始化 \(\mathbf{x}_T=\mathbf{0}, \mathbf{m}_T=\mathbf{0}\) → 每步采样解掩概率 \(\pi_t\) 揭示新基因 → 预测被掩码基因 → 填充+保持已揭示基因 → \(T\)步后得到完整基因表达。重新采样掩码轨迹可得到多样化但组织学一致的样本。

实验关键数据¶

主实验（三个ST数据集）¶

方法	类型	cSCC PCC-50↑	Her2ST PCC-50↑	Kidney PCC-50↑
ST-Net	回归	0.548	0.439	0.327
BLEEP	回归	0.643	0.520	0.404
TRIPLEX	回归	0.683	0.536	0.410
MERGE	回归	0.609	0.483	0.242
Stem	生成	0.676	0.559	0.388
STFlow	生成	0.678	0.543	0.391
HINGE	生成	0.710	0.571	0.424

HINGE在三个数据集上一致超越所有回归和生成基线。

共表达一致性分析¶

HINGE生成的基因表达在成对基因的Pearson相关矩阵上与真实ST数据的一致性显著高于其他方法→证明sc-FM的基因关系知识被成功保留和转移。

空间标记基因表达模式¶

HINGE在空间标记基因(marker genes)的表达空间分布上更接近真实模式→空间一致性优于基线。

消融实验¶

配置	cSCC PCC-50	说明
无sc-FM(随机初始化骨干)	下降显著	基因关系知识的价值
高斯扩散(非掩码)	~0.68	目标不对齐→迁移受阻
无SoftAdaLN(直接拼接)	下降	粗暴条件注入破坏预训练特征
无warm-start	训练不稳定	高掩码早期梯度过大
全微调CellFM(非冻结)	下降	小数据集灾难性遗忘
完整HINGE	0.710	所有组件互补

关键发现¶

sc-FM预训练的价值被量化：随机初始化 vs 使用CellFM→PCC-50差距明显，且共表达一致性差距更大→sc-FM的基因关系知识确实在条件生成中发挥了核心作用
目标对齐的必要性：掩码扩散 vs 高斯扩散→~3%的PCC差距。虽然看似不大，但在基因共表达分析中差距更为显著→证明"让模型看到与预训练时相似的输入形式"至关重要
冻结优于微调：在有限ST数据上全微调CellFM反而更差→冻结+SoftAdaLN是更优策略
恒等初始化的关键性：非恒等初始化的条件注入破坏预训练行为→渐进适配至关重要

亮点与洞察¶

跨模态基础模型改装的通用范式：HINGE展示了一条清晰的路径——冻结骨干+恒等初始化调制+预训练目标对齐——可将任何纯文本/纯表达的预训练模型改装为条件生成器。这对其他需要跨模态适配的场景(如蛋白质→结构、音频→视觉)有直接启发
掩码扩散的生物学直觉：基因表达的生成过程更像是"逐步揭示各基因的值"而非"从高斯噪声去噪出所有基因"——这与sc-FM的掩码自编码范式天然对齐
保留预训练知识>引入新信息：在有限ST监督下，保持sc-FM学到的基因关系比强行注入组织学信息更重要——这挑战了"更多条件化=更好"的直觉
生成模型vs回归模型的优势：HINGE不仅在PCC上超越回归基线，更重要的是在空间一致性和共表达模式上优势更明显——生成方法能产出更具生物学意义的预测

局限与展望¶

当前仅实例化CellFM作为sc-FM骨干——scGPT、scFoundation等其他模型的适配效果待验证
H&E组织学的分辨率限制了对精细细胞子类型变异的捕捉——更高分辨率成像(如IF)可能释放更多信息
三个ST数据集(cSCC/Her2ST/Kidney)规模较小——更大规模数据可能释放更多sc-FM潜力
推理需要多次采样取平均——增加了计算成本
可探索将HINGE与spatial-aware sc-FM(如scGPT-spatial)结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次适配sc-FM做组织学条件基因表达生成；掩码扩散与预训练对齐的设计优雅
实验充分度: ⭐⭐⭐⭐ 三个数据集+六个基线(回归+生成)+共表达分析+空间标记模式+充分消融
写作质量: ⭐⭐⭐⭐⭐ 从四重挑战到对应方案的映射清晰，数学推导完整
价值: ⭐⭐⭐⭐⭐ 对计算生物学(空间转录组预测)和AI方法论(跨模态基础模型适配)都有重大贡献