Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data¶

会议: ICCV 2025
arXiv: 2510.14831
代码: https://github.com/BodyMaps/AbdomenAtlas2.0
领域: 医学影像 / 肿瘤分割
关键词: 数据缩放定律, 肿瘤分割, 合成数据, AbdomenAtlas, CT分割

一句话总结¶

通过在大规模私有数据集上系统研究数据缩放定律，发现合成肿瘤可大幅降低真实标注需求（从 1500 降至 500 例），并据此构建了 AbdomenAtlas 2.0——首个涵盖 6 种器官肿瘤的万级 CT 大规模人工标注数据集，在分布内和分布外测试上均取得显著提升。

研究背景与动机¶

肿瘤分割 AI 受限于大规模体素级标注数据的匮乏。核心问题是：训练有效的肿瘤分割 AI 到底需要多少标注数据？合成数据能否减少这一需求？

作者在 JHH 私有数据集（3,000 例胰腺肿瘤标注 CT）上的关键发现：

分布内性能在约 1,500 例后饱和——继续增加同分布真实数据收益递减

加入 3 倍合成数据后，仅需 500 例真实数据即可达到同等性能——标注需求降低 70%

分布外泛化性能持续提升——即使到 3,000 例仍未饱和，数据多样性比数量更关键

基于这些发现，作者认为每种肿瘤类型 500-1,500 例标注即可构建有效 AI 模型，由此创建了 AbdomenAtlas 2.0。

方法详解¶

整体框架¶

两个核心贡献： 1. AbdomenAtlas 2.0 数据集：10,135 例 CT，6 种器官肿瘤，23 位放射科医师标注 2. 数据缩放定律研究：系统揭示真实数据与合成数据对肿瘤分割的缩放效应

关键设计¶

SMART-Annotator 标注流水线：
- 核心思想：从零标注遗漏肿瘤远比移除 AI 生成的假阳性耗时，因此设计以最大化敏感度为优先
- Stage 1 - 模型准备：针对每种肿瘤单独训练分割模型 \(f(\cdot)\)
- Stage 2 - FROC 曲线分析：选择阈值 \(\theta^*\) 使敏感度 >90%，同时保持可接受的假阳性率
- Stage 3 - 候选生成：AI 生成候选分割，由资深放射科医师确认真阳性、剔除假阳性（平均 1.2-2.4 假阳性/扫描）
- Stage 4 - 标注修正：初级放射科医师修正边界和遗漏，资深医师审核
- 效率提升：将每例标注时间从 5 分钟降至 5 秒，节省约 49,826 分钟（83 个工作日）
数据集构建 (AbdomenAtlas 2.0)：
- 规模：10,135 例 CT，470 万切片，15,130 个肿瘤实例
- 覆盖：肝脏、胰腺、肾脏、结肠、食管、子宫 6 种肿瘤
- 来源：89 家医院，17 个国家
- 首创：首个提供食管和子宫肿瘤体素级标注的公开数据集
- 包含大量早期肿瘤（<20mm）：肝脏 5,709 例、胰腺 850 例、肾脏 4,638 例
合成肿瘤数据增强 (DiffTumor)：
- 使用 DiffTumor 生成合成肿瘤，小:中:大比例为 4:2:1
- 合成数据量为真实数据的 3 倍
- 合成肿瘤自动附带体素级标注（生成即标注）
- 可叠加到任意来源的正常 CT 上，无需人工标注

损失函数 / 训练策略¶

使用 nnU-Net 框架，各向同性重采样至 1.5×1.5×1.5mm³
强度截断 [-175, 250]，线性归一化至 [0, 1]
随机裁剪 96×96×96 区域，SGD 优化器，学习率 0.01
训练 1000 epochs，每 epoch 250 次迭代，batch size = 2
推理时使用测试时增强和滑动窗口（50% 重叠）

实验关键数据¶

主实验 — MSD 排行榜¶

方法	肝脏肿瘤 DSC	肝脏肿瘤 NSD	胰腺肿瘤 DSC	胰腺肿瘤 NSD
nnU-Net	76.0	90.7	52.8	71.5
Swin UNETR	75.7	91.6	58.2	79.1
Universal Model	79.4	93.4	62.3	82.9
AbdomenAtlas 2.0	82.6	96.9	67.2	86.0
Δ	+3.2	+3.5	+4.9	+3.1

AbdomenAtlas 2.0 在 MSD 排行榜取得 #1 名次。

分布外泛化实验¶

外部数据集	最佳对比方法 DSC	AbdomenAtlas 2.0 DSC	Δ
3D-IRCADb (肝脏)	67.1 (STU-Net)	81.1	+14.0
PANORAMA (胰腺)	43.0 (SegResNet)	55.3	+12.3
Kipa (肾脏)	76.4 (ResEncM)	83.6	+7.2
JHH (胰腺)	39.5 (SegResNet)	45.1	+5.6

分布外泛化性能全面大幅领先，3D-IRCADb 上 DSC 提升 14.0%、NSD 提升 17.0%。

消融实验 — 数据缩放¶

分布内饱和实验（JHH 私有数据集）：

真实 CT 数量	DSC (仅真实)	DSC (真实+合成)
60	40.2	48.2
278	52.7	58.1
500	~54	~59 (≈仅真实1500例)
1500	59.3	59.2
3159	59.7	59.3

关键数据点：500 例真实数据 + 3× 合成数据 ≈ 1500 例纯真实数据的效果。

关键发现¶

三条核心规律：
分布内性能约 1,500 例后饱和
合成肿瘤可将真实数据需求降低 70%（1500→500）
分布外泛化持续受益于数据多样性，不饱和
合成数据加速分布内收敛（40%-60% 真实数据即可达饱和）
每类肿瘤分别提升：肝脏+4.9%、胰腺+8.8%、肾脏+3.1%、结肠+3.6%、食管+7.3%、子宫+1.4%
即使在分布外测试中，合成数据也持续贡献性能提升

亮点与洞察¶

缩放定律视角：首次系统研究肿瘤分割中的数据缩放定律，揭示饱和点和合成数据的加速效应
实用标注流水线：SMART-Annotator 将标注时间降低 60 倍，是大规模医学标注的实用方案
数据集价值巨大：10,135 例 CT 覆盖 6 种肿瘤，远超现有公开数据集之和
合成数据的深层价值：不仅提升分布内效率，还通过注入到不同来源的正常 CT 提高分布外泛化
开源承诺：代码、模型、数据全部开源

局限与展望¶

1,500 例饱和点仅在胰腺肿瘤上验证，其他器官是否相同未确认
合成肿瘤的解剖真实性（特别是浸润性、坏死性或早期病变）未经专家验证
仅使用 ResEncM 模型进行缩放实验，不同架构可能有不同饱和点
仅覆盖腹部 CT，其他模态和部位的可推广性待验证
标注流水线依赖初始 AI 模型质量，对罕见肿瘤类型可能需要额外适配

评分¶

新颖性: ⭐⭐⭐⭐ 缩放定律视角在医学影像中少见，合成数据加速训练的发现有洞察力
实验充分度: ⭐⭐⭐⭐⭐ 大规模数据集、多基线对比、分布内外评估、详细缩放实验，极为充分
写作质量: ⭐⭐⭐⭐ 论述逻辑性强，发现表述清晰，图表丰富
价值: ⭐⭐⭐⭐⭐ 数据集对医学影像社区有巨大价值，缩放定律发现对未来数据集构建有指导意义