TopoSlide: Topologically-Informed Histopathology Whole Slide Image Representation Learning¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/plevritis-lab/TopoSlide
领域: 医学图像 / 自监督表示学习
关键词: 全切片图像, 持久同调, 拓扑数据分析, 自监督, 病理基础模型

一句话总结¶

TopoSlide 把病理学家"先看局部组织、再看整体空间排布"的诊断逻辑写进自监督目标：先把千万级 patch 聚类成组织学簇，再用持久同调把每个簇的空间排布编码成拓扑描述子，最后让 ViT 在条件多任务目标下从切片级表征反推这些拓扑——仅用几百张切片训练，组织学模式检索的 Macro F1 比用十万级切片训练的基础模型最高高出约 15%。

研究背景与动机¶

领域现状：病理全切片图像（WSI）是 20× 下可达 10 万×10 万像素的"千兆像素"图像，没法整图喂进网络，主流做法是切成成千上万个 patch、用 patch 编码器（CONCH / Virchow / CTransPath / GigaPath-Tile）提特征，再聚合成切片级表征。近年的病理基础模型（GigaPath、CHIEF、PRISM、TITAN）在数万到数十万张切片上做掩码重建、视觉-语言对齐或蒸馏，把聚合做得更好。

现有痛点：这些模型几乎都只在刻画局部 patch 特征，聚合阶段用 mean/max pooling 或长序列注意力，丢掉了全局空间结构。而病理学家诊断时恰恰高度依赖"不同组织区域怎么在空间上排布"——肿瘤富集区、免疫浸润区、间质区的空间关系直接关系到疾病进展和预后。

核心矛盾：病理学家解读组织结构的方式（先识别组织学模式，再分析它们的空间组织）与现有计算方法的处理方式（只看局部、忽略全局拓扑）之间存在根本鸿沟。普通聚合算子无法把"区域是聚成一团还是多灶散布""免疫细胞是浸润进肿瘤还是被排斥在边界"这种高阶组织结构编码进表征。

本文目标：在自监督表征学习中显式注入全局拓扑理解，让切片级表征同时编码局部组织学特征和全局空间组织，并且不依赖海量切片。

切入角度：作者借用拓扑数据分析里的持久同调（persistent homology）——它能用"连通分量（0D）"和"环/洞（1D）"及其持久度，定量刻画点集的空间组织。把每类组织簇的 patch 空间分布看成点云，正好对应病理上"肿瘤是单灶大块还是多灶散布""中央坏死/免疫屏障形成的大环""腺管结构形成的小环"。

核心 idea：把 WSI 拆成组织学簇 → 用持久同调把每个簇的空间排布编码成拓扑描述子 → 训练 ViT 在"给定簇内采样 patch、从切片表征预测该簇拓扑"的条件多任务目标下学习，用拓扑作为强归纳偏置，把全局空间结构压进切片表征。

方法详解¶

整体框架¶

TopoSlide 是一个三阶段的自监督框架：输入是一张 WSI 的全部 patch 嵌入 \(P_i=\{p_{ij}\}\)，输出是一个 768 维切片级表征 \(S_i=F(P_i)\)，要求这个表征既保留局部组织学特征、又编码全局拓扑结构。整体流程是：先把所有切片的 patch 嵌入一起聚类，得到"组织学簇"；再对每个簇的空间点图算持久同调，得到拓扑描述子作为自监督标签；最后训练一个 ViT，让它从切片级嵌入出发、在采样 patch 的条件下反推这些拓扑，并辅以跨片对比学习。三类损失联合优化同一个 ViT。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["WSI 切 512×512 patch<br/>CONCHv1.5 编码"] --> B["WSI 聚类分解<br/>K-means+PCA 得到组织学簇"]
    B --> C["持久同调拓扑描述子<br/>0D 连通分量 / 1D 环 + 持久度直方图"]
    A --> D["ViT + 注意力池化<br/>切片级嵌入 Si"]
    C --> E["条件拓扑预测<br/>CLP 从 Si 反推簇拓扑"]
    D --> E
    D --> F["跨片对比学习<br/>同簇 patch 拉近、跨片推远"]
    E --> G["切片级表征 Si"]
    F --> G

关键设计¶

1. WSI 聚类分解为组织学簇：把千万级 patch 收成可解释的区域

直接对几万个 patch 做持久同调既无意义也算不动，必须先把 WSI 分解成"同质区域"。作者用 K-means（PCA 初始化）对 patch 嵌入聚类，关键是在整个训练集上一起聚类，而不是单片各聚各的——这样能避免出现只在某一张片子里成立、或彼此过于相似的"片内专属簇"。聚出的簇被一位执业病理学家在 TCGA-LUAD 上对约 450 个随机 patch 做了验证，确认每个簇对应明确的组织学模式（实体瘤、腺样结构、免疫富集区、间质等），生物学一致性高。实验里固定用 7 个簇。这一步把"对像素做拓扑"变成了"对组织学语义区域做拓扑"，是后续所有自监督信号的基础。

2. 持久同调拓扑描述子：把空间排布翻译成可学习的标签

这是方法的灵魂。对每个簇，把属于它的 patch 在切片上的位置画成二值点图，然后做持久同调：通过不断增大以每个点为圆心的圆半径（滤过过程），记录拓扑特征出现（birth）和消失（death）的时刻。持久度定义为 birth 与 death 坐标的欧氏距离，越大说明该结构越显著、尺度越大。0D 拓扑（连通分量）刻画肿瘤负荷与分布——单个大分量提示局灶生长，多个小分量提示多灶/转移；1D 拓扑（环/洞）刻画组织组织方式——大持久环常对应中央坏死或免疫排斥边界，小环对应腺管/腺体结构。滤过函数用 distance-to-measure（DTM）：\(\mathrm{DTM}_k(x)=\frac{1}{k}\sum_{y\in N_x}\mathrm{dist}(x,y)\)，\(N_x\) 是 \(x\) 的 \(k\) 近邻，相比传统距离变换对噪声更鲁棒；0D 拓扑对反图做同样处理。最后把持久图向量化成归一化的持久度直方图（每个 bin 是一段持久度区间），作为深度学习能用的多尺度拓扑标签。

3. 条件拓扑预测框架（CLP + LEA）：在无显式簇标签下学会"按簇预测拓扑"

核心难点是：要让模型在没有显式簇标签的情况下学到"某类组织的空间组织"。作者的做法是条件预测——给定从某个簇采样的 patch，让模型从切片级嵌入 \(S_i\) 预测该簇的拓扑。这迫使模型既要根据 patch 特征判断在问哪个簇，又要从切片嵌入预测这个簇的空间组织，从而把局部模式和全局结构都压进切片表征。实现上用专门的 CLP（Conditional Linear Prediction）模块，内含线性逐元素注意力 LEA：\(\mathrm{LEA}(S_i,p_{ij})=\mathrm{MHLP}(W_sS_i\,|\,W_pp_{ij})\odot\mathrm{MHLP}(W_sS_i)\)，其中 \(|\) 是拼接、\(\odot\) 是 Hadamard 积，让注意力随条件 patch 动态变化。训练目标有两支：条件拓扑损失 \(L_{\text{global-cond}}=\lambda_1 H(\hat v-v)+\lambda_2 H(\mathrm{Cumsum}(\hat v)-\mathrm{Cumsum}(v))\)，用 Huber 损失 \(H\) 稳定训练、累积和项相当于在持久度直方图上做"推土机距离"（邻近 bin 的误差罚得轻、远 bin 罚得重），用三个 CLP（连通分量 \(\mathrm{CLP}_{cc}\)、洞 \(\mathrm{CLP}_h\)、簇占比 \(\mathrm{CLP}_p\)）；局部拓扑损失 \(L_{\text{local-topo}}=\lambda_3\sum \mathrm{BCE}(\hat y_{p_{ij}},y_{p_{ij}})+\lambda_4 H(\mathrm{pers}_{p_{ij}},\hat{\mathrm{pers}}_{p_{ij}})\)，让模型识别哪些 patch 是拓扑分量中心（death 临界点）并回归其持久度，把全局拓扑和局部 patch 对应起来。

4. 跨片对比学习：用同簇 patch 的同质性补强局部表征

作者观察到，同一张切片内同一簇的 patch 比跨片同簇 patch 更同质。为利用这一点，用 SimCLR 式对比损失配合难负样本挖掘：\(L_{\text{contrast}}(i,k)=-\lambda_5\frac{n}{C}\sum_c\sum_j\log\frac{\sum_m\exp(\hat p_{ij}\cdot\hat p_{im}/\tau)}{\sum_m\exp(\hat p_{ij}\cdot\hat p_{km}/\tau)}\)，把同片同簇的 patch 拉近、把负片 \(k\) 同簇的 patch 推远。它和前两支拓扑损失一起，构成总目标 \(L_{\text{TopoSlide}}=L_{\text{global-cond}}+L_{\text{local-topo}}+L_{\text{contrast}}\)，既保证全局拓扑可预测、又保证局部 patch 表征判别性强。

损失函数 / 训练策略¶

所有切片在 20× 下切成 512×512 patch，用预训练 CONCHv1.5 提 768 维嵌入；切片表征与 patch 同维（768）。聚类取 7 簇（K-means + PCA 初始化）。ViT 为 8 层、12 头注意力，AdamW + 余弦退火训练。分别在 TCGA-LUAD / CPTAC-LUAD / TCGA-BRCA / CPTAC-BRCA 上各自自监督训练，支持片内与跨队列评测（如 TCGA-LUAD 训、CPTAC-LUAD 测）。超参 \(\lambda_{1..5}\) 等以原文为准。

实验关键数据¶

主实验¶

在肺腺癌（LUAD，TCGA/CPTAC/DHMC）与乳腺癌（BRCA，TCGA/CPTAC）队列上，评测组织学模式检索、生存预测、驱动基因突变分类三类临床任务。下表为 DHMC-LUAD 上组织学模式检索（C=5，多数投票 MV，Macro F1）的代表结果，TopoSlide 仅在单一 LUAD 队列上自监督，却超过在 17–31 个器官、数万到数十万切片上训练的基础模型：

切片编码器	训练数据规模	MV Bal.Acc (K=1)	MV Macro F1 (K=1)	MV Macro F1 (K=5)
TITAN (VLM)	340K 切片, 20 器官	45.60	44.74	42.91
CHIEF (VLM)	60K 切片, 19 器官	31.51	31.61	42.57
PRISM (VLM)	~90K 切片, 17 器官	38.00	38.37	37.49
GigaPath (Vision)	Providence, 31 器官	25.40	25.59	21.64
TopoSlide (TCGA-LUAD)	数百切片, 仅 LUAD	52.49	51.39	49.62

MV Macro F1 指 K 近邻多数投票后的宏平均 F1；TopoSlide 在 K=1 上比次优 TITAN 高约 6.6 个百分点（Macro F1 44.74→51.39），论文称组织学模式检索最高提升约 15%。

第二张表是 DHMC-LUAD 上"簇组成成分比例"的还原误差（RMSE/MAE↓），衡量表征是否保留了 WSI 的组成信息——TopoSlide 在仅用单队列训练下达到最低误差，印证拓扑感知训练让表征更完整地编码了切片组成：

切片编码器	训练范围	RMSE↓ (K=1)	MAE↓ (K=1)	RMSE↓ (K=5)
CONCH (Mean Pool)	N/A	7.13	4.58	8.82
TITAN (VLM)	20 器官	8.88	5.39	10.26
TITAN-V (Vision)	C-LUAD	7.49	4.80	8.75
TopoSlide	T-LUAD	6.96	4.31	7.91

消融实验¶

论文未在正文给出逐损失项的剥离数值表（更多分析在补充材料，⚠️ 以原文为准），但通过设计动机给出了组件作用的定性结论：

配置	作用	说明
全模型（三损失）	完整	拓扑 + 对比联合，检索/还原均最优
仅条件拓扑损失	编码全局结构	提供"从切片表征反推簇拓扑"的自监督信号
仅局部拓扑损失	连接全局↔局部	识别拓扑分量中心 patch 并回归持久度
仅对比损失	强化局部判别	利用同片同簇 patch 同质性，难负样本挖掘

关键发现¶

拓扑归纳偏置极其数据高效：TopoSlide 仅用数百张切片训练，就在检索任务上超过用十万级切片的基础模型，说明持久同调提供的全局空间约束是强而省数据的归纳偏置。
跨癌种泛化：从 LUAD 扩展到 BRCA 后拓扑约束依然有效，在生物标志物预测与生存分析上表现尤强，表明"组织空间排布"是跨癌种通用的诊断信号。
表征更完整：组成成分还原误差最低，说明拓扑感知训练不仅提升下游指标，还让切片表征本身保留了更多 WSI 组成信息，并解锁了基于拓扑的条件检索这一新能力。
生存与突变预测上 TopoSlide 为"有竞争力"而非全面碾压（如 CPTAC-LUAD PFI 上 TITAN 的 C-index 更高），说明拓扑信号对形态学相关任务增益更大。

亮点与洞察¶

把诊断认知流程直接翻译成自监督目标：不是又一个 pretext task，而是"先识别组织学模式、再分析空间组织"这一病理学家工作流的算法化，动机扎实、可解释性强。
持久同调当自监督标签是巧妙的"免费监督"：拓扑描述子完全由 patch 空间分布算出、无需人工标注，却编码了 mean pooling 永远丢掉的高阶空间结构——这是把无标签全切片变成结构监督信号的可复用范式。
条件预测绕过了缺簇标签的难题：用"采样 patch 作为条件、反推该簇拓扑"的设计，在没有显式簇 ID 监督下让模型学会按簇组织表征，CLP/LEA 的线性注意力也保持了可扩展性。
这套"聚类 → 拓扑描述子 → 条件多任务预测"的思路可迁移到其他需要全局空间结构的领域（如空间组学、遥感、组织/细胞图谱），凡是"局部单元 + 全局排布很重要"的任务都可借鉴。

局限与展望¶

聚类簇数（7）与 PCA 初始化是固定超参，不同癌种/染色协议下最优簇数可能不同，自适应簇数是自然的改进方向。
持久同调与 DTM 滤过计算开销不小，正文未量化每片预处理时间（⚠️ 以原文为准），大队列上的可扩展性需关注。
评测以检索与少量临床任务为主，生存/突变预测仅"有竞争力"，拓扑信号对非形态学相关分子任务的增益有限。
拓扑标签由 patch 空间位置决定，对 patch 编码器（CONCH）的聚类质量较敏感，编码器换代后簇与拓扑是否仍生物学一致需重新验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把全局拓扑约束引入 WSI 表征学习，把病理诊断认知流程算法化
实验充分度: ⭐⭐⭐⭐ 多队列多癌种多任务，但正文缺逐损失消融数值、生存任务仅竞争力
写作质量: ⭐⭐⭐⭐ 动机与方法叙述清晰，持久同调的生物学解读到位
价值: ⭐⭐⭐⭐⭐ 数据高效 + 可解释 + 解锁拓扑条件检索，对计算病理有直接临床价值