跳转至

HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/liesgame/HyperST
领域: 计算生物学 / 病理图像 / 空间转录组
关键词: 空间转录组、基因表达预测、双曲几何、层级对齐、多模态

一句话总结

从 H&E 病理图像直接预测空间转录组(ST)的基因表达时,已有方法只做 spot 级的图-基因匹配、忽略 ST 数据本身的层级结构,本文提出 HyperST:用多层级表征抽取器同时捕捉 spot 级与 niche 级的图像/基因特征,并在双曲空间里做层级对齐(对比对齐 HCA + 蕴含对齐 HEA),把分子语义注入图像表征,在四个组织数据集上全面刷新 SOTA。

研究背景与动机

领域现状:空间转录组(Spatial Transcriptomics, ST)能在微米级同时拿到组织形态(病理图像)和基因表达,把分子谱与组织结构对齐,对疾病诊断和靶点发现极有价值。但 ST 实验昂贵、流程繁琐,难以临床普及,于是「直接从 H&E 病理图像用深度学习预测空间分辨的基因表达」成为高性价比替代方案。

现有痛点:已有方法(StNet 直接回归、TRIPLEX 多尺度融合、BLEEP 对比对齐、Stem 生成式)大多只盯着 spot 级的图像→基因匹配,没有利用 ST 数据完整的层级结构——尤其是基因表达一侧本身就跨越细胞级、组织级多个尺度。它们要么假设形态↔转录是单射映射(忽略生物异质性),要么虽用多尺度视觉特征但缺少显式约束去保住这种内在层级。

核心矛盾:存在固有的信息不对称——基因表达谱携带的分子细节,在病理图像里往往没有明显的视觉对应物(视觉上很像的两个 patch 可能基因表达截然不同)。这种「视觉相似 ↔ 分子异质」的鸿沟,让标准图像编码器抓不到预测分子变化所需的细微形态线索。作者两个核心追问:(1) 引入更广的病理/基因上下文能否改善 spot 级预测?(2) 在视觉相似与分子异质并存时,如何让图像编码更多分子信息?

本文目标:不是把问题当成"一对多映射"硬建模,而是学一个更强、被分子信息浸润的图像表征;并显式建模 ST 数据的层级关系。

切入角度:作者按信息特异性定义层级——概念 A "蕴含" 概念 B,当 B 是 A 语义更丰富、更具体的实例(如"沙滩上的狗"是"狗"的子概念)。据此立两条层级:(1) spot 级特征蕴含其上下文更丰富的 niche 级特征;(2) 形态图像蕴含其对应的基因表达谱(基因谱比图像更细粒度、更具体)。

核心 idea:层级数据天然适合双曲空间(负曲率、体积随半径指数增长,像树)。把图-基因表征投到双曲空间,用对比对齐 + 蕴含对齐两类损失结构性地正则化隐空间,让模型学到层级感知、分子浸润的表征,再解码出基因表达。

方法详解

整体框架

HyperST 的流程是:从 WSI 上对每个 spot 切出 spot 级 patch,并把它与近邻拼成更大的 niche 级 patch;图像侧用 UNI(病理基础模型,LoRA 微调)抽 spot/niche 两级图像特征,基因侧用可训练 MLP 抽 spot/niche 两级基因特征。然后用指数映射把这四组欧氏特征投到双曲(Lorentz 模型)空间,做两类层级对齐——对比对齐(HCA)拉近对应的图-基因对、蕴含对齐(HEA)把"父概念→子概念"的偏序结构刻进隐空间。最终只用对齐后、被分子语义浸润的图像表征(spot+niche 拼接)喂给基因解码器(MLP)预测 spot 级基因表达。HEA 在这里是结构正则器而非生成模型,给隐空间施加一个有意义的归纳偏置。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["WSI: spot patch + KNN 拼成 niche patch<br/>+ spot/niche 基因谱"] --> B["多层级表征抽取器<br/>UNI+LoRA 抽图像 / MLP 抽基因<br/>spot 级 + niche 级"]
    B --> C["指数映射投到双曲空间<br/>(Lorentz 模型)"]
    C --> D["层级对比对齐 HCA<br/>对齐对应图-基因对"]
    C --> E["层级蕴含对齐 HEA<br/>刻画父→子偏序结构"]
    D --> F["基因解码器 MLP<br/>concat(I_s, I_n) → 预测基因表达"]
    E --> F

关键设计

1. 多层级表征抽取器:同时拿 spot 级与 niche 级、两个模态的层级特征

针对"只做 spot 级匹配、忽略层级"的痛点。图像侧:对每个 spot 切中心对齐的 spot 级 patch \(X_s\),再用 KNN 把中心 spot 和它在 Visium 六边形布局里的近邻拼成更大的 niche 级 patch \(X_n\),提供更广的组织微环境上下文;用病理基础模型 UNI 抽特征,但因 UNI 不适配大尺寸 niche patch,作者用 LoRA\(W_{new}=W_{origin}+BA\)\(B\in\mathbb{R}^{d\times r}, A\in\mathbb{R}^{r\times d}, r\ll d\))低秩微调,得到 \(I_s, I_n\in\mathbb{R}^d\)。基因侧:spot 级谱 \(Y_s\in\mathbb{R}^N\) 直接对应,niche 级谱取中心与近邻谱的均值 \(Y_n=\frac{1}{|S|}\sum_{z\in S}z\),再过可训练 MLP 得 \(G_s, G_n\)。这样四路特征 \(\{I_s, I_n, G_s, G_n\}\) 同时覆盖两个尺度、两个模态,为后续层级对齐提供完整素材。

2. 层级对比对齐 HCA:在双曲空间里按层级关系拉近图-基因对

针对"BLEEP 等在欧氏空间直接拉近距离、不适合层级数据"的痛点。先用指数映射 \(\exp^c_O(\cdot)\) 把四路欧氏特征投到曲率 \(-c<0\) 的双曲空间得到 \(\hat I_s,\hat I_n,\hat G_s,\hat G_n\)。然后用改造的 InfoNCE——把余弦相似度换成负的 Lorentz 距离 \(-d_{\mathbb{L}}(\cdot,\cdot)\)\(\mathcal{L}_{align}(\hat I_s,\hat G_s)=-\frac{1}{B}\sum_i\log\frac{\exp(-d_{\mathbb{L}}(\hat I_s^i,\hat G_s^i)/\tau)}{\sum_j\exp(-d_{\mathbb{L}}(\hat I_s^i,\hat G_s^j)/\tau)}\)\(\tau\) 为可学温度。HCA 同时做四个方向:spot 图↔spot 基因双向,以及 niche→spot 的跨级对齐 \(\mathcal{L}_{align}(\hat G_n,\hat I_s)\)\(\mathcal{L}_{align}(\hat I_n,\hat G_s)\)只做 niche→spot 单向,因为一个 spot 级通用特征可能对应 batch 内多个 niche,反向会引入错误负样本):\(\mathcal{L}_{HCA}=\frac{1}{4}(\mathcal{L}_{align}(\hat I_s,\hat G_s)+\mathcal{L}_{align}(\hat G_s,\hat I_s)+\mathcal{L}_{align}(\hat G_n,\hat I_s)+\mathcal{L}_{align}(\hat I_n,\hat G_s))\)

3. 层级蕴含对齐 HEA:把"父概念蕴含子概念"的偏序刻进隐空间

针对"图像与基因信息不对称、需要显式结构约束"的痛点。基于「基因比图像更细粒度,是图像的子概念」,作者用双曲蕴含损失约束偏序。每个父点 \(y\) 张开一个蕴含锥 \(R_y\),半角 \(\mathrm{aper}(y)=\sin^{-1}\!\big(\frac{2Q}{\sqrt{c}\,\|y_{space}\|}\big)\)\(Q=0.1\));若子点 \(x\) 落在锥外就惩罚 \(\mathcal{L}_{entail}(y,x)=\max(0,\,\mathrm{ext}(y,x)-\mathrm{aper}(y))\),其中 \(\mathrm{ext}(y,x)\)\(x\) 相对 \(y\) 的外角。HEA 约束四条蕴含:spot 图蕴含 niche 图、spot 基因蕴含 niche 基因、spot 图蕴含 spot 基因、niche 图蕴含 niche 基因:\(\mathcal{L}_{HEA}=\frac{1}{4}(\mathcal{L}_{entail}(\hat I_s,\hat I_n)+\mathcal{L}_{entail}(\hat G_s,\hat G_n)+\mathcal{L}_{entail}(\hat I_s,\hat G_s)+\mathcal{L}_{entail}(\hat I_n,\hat G_n))\)。它把"通用→具体"的方向显式压进双曲几何,是 HyperST 性能的关键来源(消融里去掉 HEA 掉点明显)。

损失函数 / 训练策略

基因解码器把对齐后的图像表征拼接喂入 MLP:\(Y^{pred}=\mathrm{Decoder}_{gene}(\mathrm{concat}(I_s, I_n))\),用 MSE 预测损失 \(\mathcal{L}_{pred}=\|Y^{pred}-Y_s\|_2^2\)。总目标把预测损失与双曲层级对齐损失加权合并:\(\mathcal{L}=\mathcal{L}_{pred}+\alpha(\mathcal{L}_{HCA}+\beta\,\mathcal{L}_{HEA})\),其中 \(\alpha\) 平衡对齐与预测、\(\beta\) 控制蕴含损失强度。数据上每个 spot 取 top-200 高均值高变基因(HMHVG)、表达计数做 log 变换;patch 按物理直径(55 µm)做"物理感知"裁剪后统一缩放到 224×224;UNI 的曲率 \(c\) 可训练,LoRA 调最后若干注意力层。

实验关键数据

主实验

在 HEST-1K 派生的四个组织数据集(Kidney / Colorectum / Skin / Lung)上评测,指标为 top-k 平均皮尔逊相关 PCC@k(越高越好)、MSE / MAE(越低越好)。五次随机划分(80/10/10)取均值。

数据集 模型 PCC@10↑ PCC@200↑ MSE↓ MAE↓
Kidney TRIPLEX (次优) 0.579 0.351 1.122 0.855
Kidney HyperST 0.617 0.390 1.077 0.817
Colorectum TRIPLEX 0.701 0.462 1.869 1.056
Colorectum HyperST 0.721 0.477 1.498 0.958
Skin TRIPLEX 0.831 0.740 0.981 0.685
Skin HyperST 0.839 0.758 0.932 0.657
Lung TRIPLEX 0.567 0.393 1.537 0.849
Lung HyperST 0.637 0.459 1.182 0.757

HyperST 在全部四个数据集所有指标上超过次优的 TRIPLEX;在 PCC@200 上相对提升约 10.95%(Kidney)、3.24%(Colorectum)、2.52%(Skin)、16.7%(Lung)。

临床下游验证(零样本 MSI 状态分类)

把在 Colorectum 上训练的模型对外部数据集 TCGA-COADREAD 做零样本推理,对每张切片把所有 spot 预测的基因表达平均成 slide 级伪 bulk 谱,再训随机森林预测微卫星不稳定(MSI)状态(AUROC,越高越好):

模型 MSI-H↑ MSS↑
TRIPLEX 0.630 0.567
HyperST 0.719 0.601

HyperST 在零样本设定下把 MSI-H / MSS 的 AUROC 提到 0.719 / 0.601,比最强基线 TRIPLEX 高约 14% / 6%,说明预测的基因谱抓到了更多临床相关信号。

消融实验(Kidney 数据集)

配置 PCC@200↑ 说明
完整 HyperST 0.390
w/o G-I HEA 0.378 去掉基因-图像蕴含正则,−3.24%
w/o HEA 0.368 去掉整个蕴含损失,−6.01%
w/o HEA + HCA (整个 HHA) 0.344 去掉整个层级对齐,−13.26%(掉点最多)
Euclidean counterpart 0.369 同架构换回欧氏空间
MERU 变体 0.355 双曲但无多层级
CLIP 变体 0.321 欧氏 + 无层级
only spot(解码输入) 0.353 只用 spot 图像
only niche 0.356 只用 niche 图像
spot+niche 0.390 两级拼接最优

关键发现

  • 层级对齐模块(HHA)贡献最大:完全去掉 HCA+HEA 掉 13.26% PCC@200,是最关键组件;其中 HEA(蕴含损失)单独去掉就掉 6.01%,说明显式偏序约束很重要。
  • 双曲几何确实更合适:换回欧氏空间或用 CLIP(欧氏+无层级)显著掉点,CLIP 最差(0.321),印证负曲率空间天然适配 ST 的树状层级。
  • 层级方向不能反:反转 spot–niche 或 image–gene 的蕴含方向都掉点,支持"通用→具体"的设计。
  • 多层级输入有效:解码器同时用 spot + niche 优于任一单级;LoRA 微调 UNI 最后若干注意力层(0→11 层)总体提升,但 5→7 层时 MSE/MAE 有轻微回退。

亮点与洞察

  • 把"信息特异性"映射成几何层级:用"父概念蕴含更具体的子概念"统一刻画 spot→niche、图像→基因两条层级,再交给双曲空间承载,是个很自洽且可迁移的抽象。
  • HEA 作为结构正则器而非生成器:不去硬建模一对多映射,而是用蕴含锥给隐空间施加偏置,思路优雅,且消融证明它是性能主力。
  • 零样本临床下游迁移:在外部 TCGA 数据上零样本预测基因谱再做 MSI 分类就能涨点,说明学到的表征带可迁移的临床信号,这种验证比单纯的 PCC 更有说服力。

局限与展望

  • 仅在四个 HEST-1K 派生数据集、Visium 六边形布局上验证;对其它 ST 平台(如更高分辨率的成像式 ST)是否适配未知。
  • 双曲空间的曲率 \(c\)\(\alpha/\beta\)、蕴含锥参数 \(Q\) 等超参较多,且双曲运算(指数映射、Lorentz 距离)数值稳定性是已知难点,论文未深入讨论训练成本/稳定性代价。⚠️ 此为自己发现的潜在局限。
  • niche 仅用 KNN/六邻域定义的固定上下文,未必能自适应不同组织的微环境尺度。
  • 基因侧只取 top-200 HMHVG,对低表达但临床关键的基因覆盖有限。

相关工作与启发

  • vs BLEEP: BLEEP 在欧氏空间对比对齐 spot 图-基因;HyperST 把对齐搬到双曲空间并加多层级 + 蕴含约束,区别在于显式利用 ST 的层级结构,消融中欧氏对应物明显更差。
  • vs TRIPLEX(次优): TRIPLEX 融合多尺度视觉特征但缺显式层级约束;HyperST 在两个模态都建 spot↔niche 的父子层级,PCC@200 全面领先。
  • vs MERU / HyCoCLIP: MERU 把图文嵌入双曲空间做层级,HyCoCLIP 靠预训练目标检测抽 box 建模态内层级(依赖外部检测器、可能不准);HyperST 直接利用 ST 数据本身的 spot→niche 结构,避开外部特征抽取的不确定性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把双曲层级学习用于 ST 基因表达预测,且层级定义自洽、双向对齐设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 四数据集 + 零样本临床下游 + 细致消融,但数据集均来自 HEST-1K/Visium 单一来源
  • 写作质量: ⭐⭐⭐⭐ 两问题→两组件的逻辑清晰,双曲几何 preliminary 铺垫完整
  • 价值: ⭐⭐⭐⭐ 低成本从病理图预测 ST 有明确临床价值,零样本 MSI 验证增强说服力