Semantic and Visual Crop-Guided Diffusion Models for Heterogeneous Tissue Synthesis in Histopathology¶
会议: NeurIPS 2025
arXiv: 2509.17847
代码: 项目页
领域: 医学影像 / 计算病理学
关键词: 病理图像合成, 扩散模型, 双条件生成, 异质性组织, 自监督聚类
一句话总结¶
提出 HeteroTissue-Diffuse(HTD),一种双条件 Latent Diffusion 模型,通过同时以语义分割图和真实组织裁剪块(visual crop)作为条件来生成异质性病理图像,在 Camelyon16 上将 Fréchet Distance 从 430 降至 72(6 倍改善),合成数据训练的 DeepLabv3+ 分割 IoU 与真实数据仅差 1-2%,并通过自监督聚类扩展到 11765 张无标注 TCGA 全幻灯片图像。
研究背景与动机¶
领域现状:病理图像 AI 诊断受限于数据稀缺、标注昂贵和隐私问题。生成模型从 GAN 演进到扩散模型后,图像质量和训练稳定性大幅提升,但现有方法大多只能生成同质性组织(单一组织类型),无法反映真实临床标本中多种组织混合共存的情况。
现有痛点:条件控制机制存在三类缺陷——无条件生成缺乏对组织类型的控制;文本引导受限于病理术语的观察者间差异(kappa 仅 0.48);视觉嵌入方法(如 CLIP、RNA-seq embedding)在降维过程中丢失了关键的细胞核纹理、染色模式等诊断特征。这些方法都无法同时实现对异质性组织的空间精确控制和形态保真。
核心矛盾:空间精度与形态保真之间的矛盾。语义分割图能提供精确的空间布局控制,但不携带实际组织外观信息;视觉嵌入能编码外观但丢失细节。更根本的问题是,大量病理数据集(如 TCGA 的 11765 张 WSI)缺乏像素级标注,无法直接用于条件生成训练。
本文目标 (1) 如何在生成异质性组织图像时同时保证空间布局精度和形态学保真度?(2) 如何将方法扩展到大规模无标注数据集?
切入角度:核心观察是——直接用真实组织裁剪块(raw tissue crops)作为视觉条件,而非经过编码器提取的抽象嵌入,可以无损保留染色模式、细胞形态等关键诊断特征。同时利用基础模型嵌入对无标注数据自动聚类生成伪标注。
核心 idea:用"语义分割图 + 真实组织裁剪块"的双条件机制代替"文本/嵌入"条件来控制 LDM 生成异质性病理图像。
方法详解¶
整体框架¶
HeteroTissue-Diffuse (HTD) 基于 Latent Diffusion Model 构建。输入为一张病理图像 patch 及其对应的语义分割图;输出为具有精确区域标注的合成病理图像。整个框架分三部分:(a) 对无标注数据(TCGA)进行无监督组织聚类以生成伪语义图;(b) 异质性区域在线采样;(c) 双条件 LDM 生成。对于有标注数据(Camelyon16、Panda),直接使用已有标注进入 (c)。
关键设计¶
-
双条件机制(Dual-Conditioning):
- 功能:同时利用语义空间信息和真实组织外观信息来精确引导图像生成
- 核心思路:对于 K 类组织的分割图 \(M\),为每个类别 \(i\) 从对应语义区域中随机裁剪一个 \(d \times d\)(\(d \in [50, 200]\) 像素)的方形块 \(p_i\),放置到与原图等大的稀疏张量 \(C_i\) 中。最终条件信号为 \(c = \text{concat}(M, C_1, ..., C_K)\),即分割图通道 + 各类别视觉裁剪通道的拼接。这个条件通过 ControlNet 风格的机制注入 UNet 去噪网络
- 设计动机:语义图提供"哪个区域是什么组织"的空间布局,视觉裁剪提供"该组织长什么样"的形态参考。相比嵌入方法,直接使用原始像素避免了信息损失;相比文本方法,避免了术语歧义
-
异质性 Patch 采样策略:
- 功能:确保训练样本包含有意义的组织多样性
- 核心思路:对有标注数据,提取 patch 时要求组织比例在 20%-80% 范围内(即至少两种组织共存)。对 TCGA 无标注数据,计算每个区域的组织多样性熵 \(H(r) = -\sum_i p_i(r) \log p_i(r)\),优先采样高熵区域(如肿瘤-间质交界处)。裁剪块大小根据组织复杂度自适应:\(d_i = d_{\text{base}} \cdot (1 + \alpha \cdot \text{ComplexityScore}(i))\)
- 设计动机:避免训练样本全是同质组织区域,让模型学会生成组织间的真实过渡
-
自监督组织类型发现(TCGA 扩展):
- 功能:为 11765 张无标注 TCGA WSI 自动生成伪语义分割图
- 核心思路:三阶段流程——(1) 用 UNI 等病理基础模型提取所有 patch 的嵌入(6.34 亿 patch),通过多样性感知采样每张 WSI 选 1000 个代表性 patch;(2) 分层 K-means 聚类为 100 种组织表型,高方差簇进一步子聚类;(3) 生成多尺度伪语义图(\(k \in \{5, 10, 20, 50, 100\}\) 种粒度),训练时用课程学习从粗到细逐步增加粒度 \(k'(t) = k_{\min} + (k_{\max} - k_{\min}) \cdot \min(1, t/T_{\text{warmup}})\)
- 设计动机:TCGA 涵盖 33 种癌症类型但无分割标注,自监督聚类让框架无需人工标注即可扩展到大规模多样化数据
损失函数 / 训练策略¶
标准 LDM 噪声预测损失 \(\mathcal{L} = \mathbb{E}\|\epsilon - \epsilon_\theta(z_t, t, c)\|_2^2\)。推理时额外训练一个轻量 ViT-small 分类器替代昂贵的基础模型进行组织类型分类,计算开销降低约 85%。训练数据包含染色变异、旋转、亮度等组织感知增强。
实验关键数据¶
主实验¶
Fréchet Distance 评估(越低越好,使用 8 种不同 encoder):
| 数据集 | 条件 | RN50-BT | DINOv2 | UNI2-H | UNI |
|---|---|---|---|---|---|
| Camelyon16 | 无条件 | 430.1 | 122.0 | 139.8 | 70.0 |
| Camelyon16 | 嵌入条件 | 183.0 | 289.6 | 141.6 | 841.1 |
| Camelyon16 | 视觉裁剪条件 | 72.0 | 52.7 | 85.2 | 481.4 |
| Panda | 无条件 | 150.0 | 352.4 | 113.6 | 650.5 |
| Panda | 视觉裁剪条件 | 22.8 | 61.4 | 52.4 | 299.9 |
下游分割 IoU:
| 训练数据 | Camelyon16 IoU | Panda IoU |
|---|---|---|
| 无条件合成 | 0.63 | 0.86 |
| 嵌入条件合成 | 0.69 | 0.88 |
| 视觉裁剪条件合成 | 0.71 | 0.95 |
| 真实数据 | 0.72 | 0.96 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 无条件 → 视觉裁剪条件 | FD 降低 6 倍(RN50-BT) | 视觉条件是质量提升的核心 |
| 嵌入条件 → 视觉裁剪条件 | FD 进一步降低 2-3 倍 | 直接像素优于抽象嵌入 |
| 合成数据 vs 真实数据 | IoU 差距仅 1-2% | 接近完全替代真实数据 |
关键发现¶
- 视觉裁剪条件在所有 encoder 和数据集上一致优于嵌入条件和无条件,验证了"直接用原始像素做条件"的核心假设
- RN50-BT 和 DINOv2 encoder 对视觉条件最敏感,FD 改善幅度最大
- 认证病理学家盲评 120 张图像,认为合成图像与真实图像"无法区分",甚至评价"合成图像的质量等于或高于真实图像"
- 在 Panda 数据集上合成数据训练的分割模型 IoU 达 0.95 vs 真实数据 0.96,几乎可以完全替代真实数据
亮点与洞察¶
- 视觉裁剪替代嵌入的思路简单而有效:直接把真实组织小块放进条件通道,比任何学到的抽象表示都更能保留诊断关键的细微特征(细胞核形态、染色模式)。这个"最简单的方法就是最好的方法"的洞察值得在其他条件生成任务中借鉴
- 自监督聚类实现无标注扩展:用基础模型嵌入 + K-means 自动发现 100 种组织表型,再生成伪语义图用于训练,优雅地解决了大规模无标注数据的利用问题。课程学习从粗到细的策略也值得参考
- 合成数据接近完全替代真实数据:IoU 仅差 1-2% 是一个重要里程碑,意味着可以在不分享患者数据的情况下训练诊断模型,对隐私保护和数据稀缺场景(罕见癌症)意义重大
局限与展望¶
- 推理效率:TCGA 的 6.34 亿 patch 嵌入提取耗时 3 个月(单卡 A100),虽然推理时用 ViT-small 替代降低了 85% 开销,但初始聚类成本仍然很高
- 聚类分类器精度有限:ViT-small 在 100 类组织表型上的分类准确率仅 47%,可能影响推理阶段的条件质量
- 分辨率与多尺度:当前在固定尺度 patch 级别操作,未解决 WSI 中不同放大倍率下结构一致性问题(虽引用了 URCDM 和 DifInfinite 的工作但未采用)
- 缺少切片级别的全局结构评估:FD 和 IoU 都是 patch 级别指标,未评估生成图像在整张 WSI 尺度上的结构合理性
- 仅验证分割下游任务:未在分类、检测等其他下游任务上验证合成数据的效用
相关工作与启发¶
- vs NASDM / Konz et al.:它们使用语义分割图条件但只关注单一组织类型,本文扩展到异质性多组织生成并增加视觉裁剪条件保留形态细节
- vs URCDM:URCDM 用级联扩散模型处理多分辨率生成,本文聚焦于 patch 级别的条件控制而非多尺度一致性,两者互补
- vs 文本引导方法(PathLDM 等):文本条件受限于病理术语歧义和观察者间差异,本文用视觉裁剪完全绕过了语言描述的瓶颈
- 启发:视觉裁剪条件的思路可迁移到其他需要精确控制生成的医学影像领域(如放射学、皮肤病学),也可考虑与文本条件做多模态融合
评分¶
- 新颖性: ⭐⭐⭐⭐ 双条件机制(语义图+视觉裁剪)在病理图像合成中是新颖且实用的设计,但 LDM 本身和 ControlNet 机制并非新贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、8 种 encoder 的 FD 评估、下游分割、病理学家盲评,验证全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详实,但部分技术细节(如 ControlNet 注入方式)在正文中略欠详细
- 价值: ⭐⭐⭐⭐ 合成数据近乎替代真实数据的结果对隐私保护医学 AI 有重要价值,TCGA 扩展展示了良好的实用性