HiFusion: Hierarchical Intra-Spot Alignment and Regional Context Fusion for Spatial Gene Expression Prediction from Histopathology¶
会议: AAAI 2026
arXiv: 2511.12969
代码: GitHub
领域: 医学图像 / 空间转录组学
关键词: 空间转录组学, 基因表达预测, 多尺度特征融合, 组织病理学, 交叉注意力
一句话总结¶
提出 HiFusion 框架,通过层次化 spot 内建模(HISM)和上下文感知跨尺度融合(CCF)两个互补模块,从 H&E 染色全切片图像中准确预测空间基因表达,在两个基准数据集的 2D 切片交叉验证和 3D 样本特异性评估中均达到 SOTA。
研究背景与动机¶
- 空间转录组学(ST) 能够在保留空间定位的同时实现全基因组表达谱分析,但临床推广受限于高昂成本、专用设备和有限的可扩展性
- H&E 染色 WSI 在临床病理中常规获取,成本低廉,蕴含与基因表达密切关联的丰富形态学特征(如 HER2 阳性乳腺癌中 ERBB2 过表达与特定形态表型的关联)
- 现有方法的局限:
- 大多数方法将每个 spot 视为同质区域,忽略了 spot 内的层次结构(一个 55-100μm 的 spot 内包含多种细胞类型、核纹理、亚细胞模式)
- 区域上下文信息仅作为辅助输入,未显式建模 spot 与周围组织的语义关联
- TRIPLEX、ASIGN 等方法使用大尺寸区域 patch(超过 1000×1000 像素),但大感受野可能引入形态学噪声
- 核心问题:如何同时捕获 spot 内细粒度形态学异质性和周围组织的生物学相关上下文
方法详解¶
整体框架¶
HiFusion 是一个双分支框架,包含两个关键组件:
- HISM(Hierarchical Intra-Spot Modeling):层次化 spot 内建模与对齐
- CCF(Context-Aware Cross-Scale Fusion):上下文感知跨尺度融合
输入为 spot 图像 \(X^S \in \mathbb{R}^{n \times H_S \times W_S \times 3}\) 和区域邻域 patch \(X^N \in \mathbb{R}^{n \times H_N \times W_N \times 3}\),目标是学习映射 \(\phi: \{X^S, X^N\} \rightarrow Y\),预测基因表达向量 \(Y \in \mathbb{R}^{n \times m}\)。
HISM 模块:层次化 Spot 内建模¶
核心思想是通过多分辨率子 patch 分解捕获 spot 内形态学异质性:
- Level-0:原始 spot 图像(224×224),通过共享编码器 \(f_\theta\) 提取全局特征图 \(\mathbf{F}_0^S \in \mathbb{R}^{d \times h \times w}\)
- Level-1:将 spot 分解为 \(p \times p\)(2×2)个不重叠子 patch,捕获亚组织/区域结构
- Level-2:将 spot 分解为 \(q \times q\)(7×7)个不重叠子 patch,捕获细胞/亚细胞级信息
- 所有子 patch 通过共享编码器(ResNet-18)提取特征,按原始空间位置重建特征图
- 若重建分辨率与 Level-0 不匹配,使用双线性插值对齐
特征对齐损失:确保跨尺度语义一致性
利用 CNN 的平移不变性,鼓励细粒度特征保持全局语义一致。
CCF 模块:上下文感知跨尺度融合¶
- 区域编码:邻域 patch 通过轻量级编码器(ResNet-10)+ 全局平均池化,得到区域表示 \(\mathbf{Q}_i^N \in \mathbb{R}^{1 \times d}\)
- 可学习加权融合:三个尺度的 spot 特征通过 softmax 归一化的可学习权重自适应融合
- 跨注意力融合:区域表示作为 Query,融合后的多尺度 spot 特征(经自适应平均池化为 \(k^2\) 个 token)作为 Key 和 Value
- 残差连接 + 预测头:
该设计使模型能选择性关注生物学相关的上下文信息,同时抑制空间噪声。
损失函数¶
总损失由三部分组成:
- \(\mathcal{L}_{\text{main}}\):MSE 回归损失
- \(\mathcal{L}_{\text{aux}}\):多尺度辅助监督,各层级特征独立预测基因表达
- \(\mathcal{L}_{\text{align}}\):跨尺度特征对齐正则化(\(\lambda=1\))
实验¶
数据集¶
| 数据集 | 描述 | 样本数 | spot 数 |
|---|---|---|---|
| HER2 | HER2 阳性乳腺肿瘤 | 36 WSI(8 patients) | 13,620 |
| ST-Data | 乳腺癌(ST-Net) | 16 samples | 41,544 |
预测 top-250 高表达基因,基因表达值经 spot-wise 归一化 + 对数变换。
主实验结果¶
| 方法 | HER2-2D MSE↓ | HER2-2D PCC↑ | HER2-3D MSE↓ | HER2-3D PCC↑ | ST-2D MSE↓ | ST-2D PCC↑ | ST-3D MSE↓ | ST-3D PCC↑ |
|---|---|---|---|---|---|---|---|---|
| ST-Net | 0.6523 | 0.4621 | 0.5323 | 0.7042 | 0.5798 | 0.5304 | 0.4939 | 0.7443 |
| TRIPLEX | 0.5715 | 0.4750 | 0.2899 | 0.7471 | 0.5389 | 0.5387 | 0.2857 | 0.7780 |
| ASIGN-2D | 0.5830 | 0.4601 | 0.3116 | 0.7316 | 0.5449 | 0.5373 | 0.2822 | 0.7741 |
| HiFusion | 0.5459 | 0.4961 | 0.2846 | 0.7492 | 0.5095 | 0.5613 | 0.2711 | 0.7838 |
- 2D 评估:HiFusion 在 HER2 上 MSE 低于 TRIPLEX 2.1-2.6%,PCC 高 2%+
- 3D 评估:相比 ST-Net 改善 22-25%;3D 内样本学习策略优于 ASIGN-3D 的复杂 3D 对齐方案
消融实验¶
HISM 分解层级: - 1×1(无分解)已接近第二好 baseline(TRIPLEX) - 1×1 + 2×2 + 7×7 组合最优,互补的空间粒度:全局组织 → 亚区域结构 → 细胞级
特征对齐损失: - 加入对齐损失在 HER2 上 MSE 降低约 2%,PCC 提升超过 2%
CCF 模块: - Spot token 数量:2×2(4 个 token)最优,更多 token 引入噪声 - 邻域 patch 大小:2 倍 spot 尺寸(448×448)最优,更大区域引入无关组织信号
癌症标志基因可视化¶
- ERBB2:HiFusion MAE=0.711, PCC=0.518 vs ASIGN MAE=1.074, PCC=-0.035
- KRT19:HiFusion MAE=0.446, PCC=0.230(最优)
- CD74:HiFusion MAE=0.584, PCC=0.357(最优)
- 视觉上 HiFusion 最准确定位高表达区域
亮点与洞察¶
- 层次化 spot 内建模思路新颖,利用多分辨率分解 + 共享编码器,计算高效且语义一致
- 适度上下文优于大范围上下文:448(2×spot)优于更大的 1120,说明过大感受野引入噪声
- 3D 内样本学习策略反直觉但有效:仅用单层训练、预测邻近层,优于复杂的跨样本 3D 策略
- 设计简洁实用:ResNet-18/10 骨干,单卡 RTX 4090 可训练,可扩展性强
- 跨尺度特征对齐损失是重要的正则化手段,确保多分辨率特征语义一致
局限性¶
- 仅在乳腺癌数据集(HER2 和 ST-Data)上验证,未涵盖其他组织类型或疾病
- 编码器采用固定的 ResNet 架构,未探索基于 foundation model(如 UNI、CONCH)的预训练编码器
- 区域上下文仅使用单个邻域 patch,未考虑更灵活的空间图建模(如 GNN)
- 仅预测 top-250 基因,全基因组预测仍待探索
相关工作¶
- ST-Net(He et al. 2020):DenseNet 独立 spot 预测,开创性工作
- HisToGene(Pang et al. 2021):ViT 建模长程依赖
- Hist2ST(Zeng et al. 2022):ConvMixer + GNN 邻域建模
- EGN/BLEEP:图像相似性检索/对比学习,但对染色变异敏感
- TRIPLEX(Chung et al. 2024):三分支架构(spot/邻域/全局),CVPR 2024
- ASIGN(Zhu et al. 2025):3D 组织切面对齐 + 图模型,当前 SOTA
评分 ⭐⭐⭐⭐¶
方法设计清晰合理,层次化分解 + 跨注意力融合的组合有效解决了多尺度建模问题。实验充分,消融完整,癌症标志基因可视化增强了临床可解释性。但数据集多样性有限,未探索更强的预训练编码器,泛化性有待进一步验证。