跳转至

Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data

会议: ICCV 2025
arXiv: 2510.14831
代码: https://github.com/BodyMaps/AbdomenAtlas2.0
领域: 医学影像 / 肿瘤分割
关键词: 数据缩放定律, 肿瘤分割, 合成数据, AbdomenAtlas, CT分割

一句话总结

通过在大规模私有数据集上系统研究数据缩放定律,发现合成肿瘤可大幅降低真实标注需求(从 1500 降至 500 例),并据此构建了 AbdomenAtlas 2.0——首个涵盖 6 种器官肿瘤的万级 CT 大规模人工标注数据集,在分布内和分布外测试上均取得显著提升。

研究背景与动机

肿瘤分割 AI 受限于大规模体素级标注数据的匮乏。核心问题是:训练有效的肿瘤分割 AI 到底需要多少标注数据?合成数据能否减少这一需求?

作者在 JHH 私有数据集(3,000 例胰腺肿瘤标注 CT)上的关键发现:

分布内性能在约 1,500 例后饱和——继续增加同分布真实数据收益递减

加入 3 倍合成数据后,仅需 500 例真实数据即可达到同等性能——标注需求降低 70%

分布外泛化性能持续提升——即使到 3,000 例仍未饱和,数据多样性比数量更关键

基于这些发现,作者认为每种肿瘤类型 500-1,500 例标注即可构建有效 AI 模型,由此创建了 AbdomenAtlas 2.0。

方法详解

整体框架

两个核心贡献: 1. AbdomenAtlas 2.0 数据集:10,135 例 CT,6 种器官肿瘤,23 位放射科医师标注 2. 数据缩放定律研究:系统揭示真实数据与合成数据对肿瘤分割的缩放效应

关键设计

  1. SMART-Annotator 标注流水线

    • 核心思想:从零标注遗漏肿瘤远比移除 AI 生成的假阳性耗时,因此设计以最大化敏感度为优先
    • Stage 1 - 模型准备:针对每种肿瘤单独训练分割模型 \(f(\cdot)\)
    • Stage 2 - FROC 曲线分析:选择阈值 \(\theta^*\) 使敏感度 >90%,同时保持可接受的假阳性率
    • Stage 3 - 候选生成:AI 生成候选分割,由资深放射科医师确认真阳性、剔除假阳性(平均 1.2-2.4 假阳性/扫描)
    • Stage 4 - 标注修正:初级放射科医师修正边界和遗漏,资深医师审核
    • 效率提升:将每例标注时间从 5 分钟降至 5 秒,节省约 49,826 分钟(83 个工作日)
  2. 数据集构建 (AbdomenAtlas 2.0)

    • 规模:10,135 例 CT,470 万切片,15,130 个肿瘤实例
    • 覆盖:肝脏、胰腺、肾脏、结肠、食管、子宫 6 种肿瘤
    • 来源:89 家医院,17 个国家
    • 首创:首个提供食管和子宫肿瘤体素级标注的公开数据集
    • 包含大量早期肿瘤(<20mm):肝脏 5,709 例、胰腺 850 例、肾脏 4,638 例
  3. 合成肿瘤数据增强 (DiffTumor)

    • 使用 DiffTumor 生成合成肿瘤,小:中:大比例为 4:2:1
    • 合成数据量为真实数据的 3 倍
    • 合成肿瘤自动附带体素级标注(生成即标注)
    • 可叠加到任意来源的正常 CT 上,无需人工标注

损失函数 / 训练策略

  • 使用 nnU-Net 框架,各向同性重采样至 1.5×1.5×1.5mm³
  • 强度截断 [-175, 250],线性归一化至 [0, 1]
  • 随机裁剪 96×96×96 区域,SGD 优化器,学习率 0.01
  • 训练 1000 epochs,每 epoch 250 次迭代,batch size = 2
  • 推理时使用测试时增强和滑动窗口(50% 重叠)

实验关键数据

主实验 — MSD 排行榜

方法 肝脏肿瘤 DSC 肝脏肿瘤 NSD 胰腺肿瘤 DSC 胰腺肿瘤 NSD
nnU-Net 76.0 90.7 52.8 71.5
Swin UNETR 75.7 91.6 58.2 79.1
Universal Model 79.4 93.4 62.3 82.9
AbdomenAtlas 2.0 82.6 96.9 67.2 86.0
Δ +3.2 +3.5 +4.9 +3.1

AbdomenAtlas 2.0 在 MSD 排行榜取得 #1 名次。

分布外泛化实验

外部数据集 最佳对比方法 DSC AbdomenAtlas 2.0 DSC Δ
3D-IRCADb (肝脏) 67.1 (STU-Net) 81.1 +14.0
PANORAMA (胰腺) 43.0 (SegResNet) 55.3 +12.3
Kipa (肾脏) 76.4 (ResEncM) 83.6 +7.2
JHH (胰腺) 39.5 (SegResNet) 45.1 +5.6

分布外泛化性能全面大幅领先,3D-IRCADb 上 DSC 提升 14.0%、NSD 提升 17.0%。

消融实验 — 数据缩放

分布内饱和实验(JHH 私有数据集):

真实 CT 数量 DSC (仅真实) DSC (真实+合成)
60 40.2 48.2
278 52.7 58.1
500 ~54 ~59 (≈仅真实1500例)
1500 59.3 59.2
3159 59.7 59.3

关键数据点:500 例真实数据 + 3× 合成数据 ≈ 1500 例纯真实数据的效果

关键发现

  • 三条核心规律
  • 分布内性能约 1,500 例后饱和
  • 合成肿瘤可将真实数据需求降低 70%(1500→500)
  • 分布外泛化持续受益于数据多样性,不饱和
  • 合成数据加速分布内收敛(40%-60% 真实数据即可达饱和)
  • 每类肿瘤分别提升:肝脏+4.9%、胰腺+8.8%、肾脏+3.1%、结肠+3.6%、食管+7.3%、子宫+1.4%
  • 即使在分布外测试中,合成数据也持续贡献性能提升

亮点与洞察

  • 缩放定律视角:首次系统研究肿瘤分割中的数据缩放定律,揭示饱和点和合成数据的加速效应
  • 实用标注流水线:SMART-Annotator 将标注时间降低 60 倍,是大规模医学标注的实用方案
  • 数据集价值巨大:10,135 例 CT 覆盖 6 种肿瘤,远超现有公开数据集之和
  • 合成数据的深层价值:不仅提升分布内效率,还通过注入到不同来源的正常 CT 提高分布外泛化
  • 开源承诺:代码、模型、数据全部开源

局限与展望

  • 1,500 例饱和点仅在胰腺肿瘤上验证,其他器官是否相同未确认
  • 合成肿瘤的解剖真实性(特别是浸润性、坏死性或早期病变)未经专家验证
  • 仅使用 ResEncM 模型进行缩放实验,不同架构可能有不同饱和点
  • 仅覆盖腹部 CT,其他模态和部位的可推广性待验证
  • 标注流水线依赖初始 AI 模型质量,对罕见肿瘤类型可能需要额外适配

相关工作与启发

  • 延续了 Kaplan 等人的缩放定律思想,从语言模型迁移到医学影像
  • DiffTumor 的合成肿瘤生成为数据增强提供了新范式
  • Universal Model 和 SuPreM 提供了强基线对比
  • 启发:在数据受限的医学领域,合成数据 + 少量精标注的组合策略可能是最优解

评分

  • 新颖性: ⭐⭐⭐⭐ 缩放定律视角在医学影像中少见,合成数据加速训练的发现有洞察力
  • 实验充分度: ⭐⭐⭐⭐⭐ 大规模数据集、多基线对比、分布内外评估、详细缩放实验,极为充分
  • 写作质量: ⭐⭐⭐⭐ 论述逻辑性强,发现表述清晰,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 数据集对医学影像社区有巨大价值,缩放定律发现对未来数据集构建有指导意义