Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation? A Cross-Dataset Empirical Study¶

会议: CVPR 2026
arXiv: 2603.13044
代码: GitHub（论文提及，具体链接见论文）
领域: 医学图像
关键词: 医学图像分割, 通用视觉模型, 实证对比, 可解释性, Grad-CAM

一句话总结¶

在统一训练评估协议下对比11个模型（5个专用医学分割架构SMA + 6个通用视觉模型GP-VM）在3个异构医学数据集上的表现，发现GP-VMs在所有数据集上系统性优于大多数SMAs（平均mDSC: VW-MiT 91.0% vs 最佳SMA SU-Mamba 90.5%），且Grad-CAM分析表明GP-VMs能捕获临床相关结构。

研究背景与动机¶

领域现状：医学图像分割（MIS）自U-Net以来涌现了大量专用架构，包括HiFormer（CNN-ViT混合）、MISSFormer（纯Transformer）、Swin-UMamba（状态空间模型）、U-KAN（KAN集成）等，各自针对医学图像的低对比度、小结构、标注稀缺等挑战设计了专用机制。与此同时，SegFormer、SegNeXt、ConvNeXt、InternImage、TransNeXt等通用视觉模型在自然图像语义分割基准上已取得强大性能。

现有痛点：文献中的性能对比通常存在严重的混淆因素——不同论文使用不同的数据集、预处理流程、数据增强策略、优化器设置和评估协议，导致性能差异可能源于实验设计选择而非架构本身的优劣。因此，"专用架构是否真的优于通用模型"这个基本问题缺乏可靠答案。

核心矛盾：医学影像社区的默认假设是"医学图像的特殊性要求专用架构设计"，但通用模型受益于大规模ImageNet预训练和百万级图像验证的优化经验，其学到的通用视觉特征可能已经足够强大。这两种理念之间的矛盾缺乏受控实证检验。

本文目标 (1) 在消除所有混淆因素的统一协议下，专用医学分割架构是否比通用视觉模型有系统性优势？(2) 通用模型不仅精度高，其决策逻辑是否也与临床知识一致（通过XAI验证）？(3) 结论是否在不同成像模态和任务设置下具有普遍性？

切入角度：采用严格控制的实证研究方法论——统一ImageNet预训练、512×512输入分辨率、AdamW+REX调度器、相同数据增强和早停策略，对每个模型-数据集对进行学习率搜索，并使用5折交叉验证减少随机性。选择3个在模态（皮肤镜RGB/内窥镜RGB/超声灰度）、类别结构（二分类/多分类）和数据特性上存在异构性的数据集。

核心 idea：在严格受控的benchmarking框架下，用实证数据证明通用视觉模型已能替代大多数专用医学分割架构，领域特定设计的边际收益可能被高估。

方法详解¶

整体框架¶

这是一项纯实证对比研究，不提出新方法。研究框架分三层：(1) 模型选择——从SMA和GP-VM两大家族中各选代表性架构，确保涵盖CNN/ViT/混合/状态空间/KAN等多种范式；(2) 统一训练评估——在ISIC'18（皮肤病变二分类）、NeoPolyp（息肉多分类）、CAMUS（心脏超声多分类）3个数据集上用同一协议训练所有模型；(3) 多维分析——除分割精度外，用Grad-CAM可解释性分析揭示模型的注意力模式。

关键设计¶

统一Benchmarking协议（消除混淆因素）:
- 功能：确保不同架构之间的对比公平、可信
- 核心思路：所有模型统一使用ImageNet预训练编码器、512×512输入分辨率、AdamW优化器+REX学习率调度器、batch size 8。对每个模型-数据集对，在 \(\{10^{-4}, 5\times10^{-5}, 10^{-5}\}\) 中搜索最优学习率，训练100 epoch后选最优，再用150 epoch的5折交叉验证评估。数据集特定的损失函数（ISIC'18用BCE，多分类用CE）和数据增强在同一数据集所有模型间完全一致
- 设计动机：文献中大量对比因训练设置不统一而不可信——augmentation策略、学习率、epoch数等差异可能导致2-5%的性能波动，数量级与架构差异相当
异构数据集覆盖（验证结论普遍性）:
- 功能：选择3个在模态、类别结构和数据特性上高度异构的数据集
- ISIC'18：皮肤镜RGB图像，3565张，二分类（病变/背景），特点是边界不规则
- NeoPolyp (BKAI-IGH)：内窥镜RGB图像，945张，3类（非肿瘤性/肿瘤性息肉+背景），特点是亚型间变异大
- CAMUS：心脏超声灰度图像，1996张，4类（左心室/左室壁/左心房+背景），特点是超声噪声大
- 设计动机：覆盖RGB/灰度、二分类/多分类、皮肤/消化道/心脏等异构场景，避免单一数据集的偏倚。数据集还进行了重复图像和高相似图像的过滤，CAMUS使用患者级别分组防止数据泄漏
Grad-CAM可解释性分析（超越精度的评估）:
- 功能：分析模型注意力区域是否与临床相关结构对应
- 核心思路：使用M3d-CAM实现的Grad-CAM，自动选择最后一层合适的层生成注意力热图。在每折50个最差样本中可视化各模型的注意力分布，评判模型是否"看到了正确的东西"
- 设计动机：在安全关键的医学应用中，高精度但关注错误区域的模型是危险的。XAI分析为GP-VM的可靠性提供了额外证据

损失函数 / 训练策略¶

ISIC'18使用二元交叉熵损失（BCE），NeoPolyp和CAMUS使用多分类交叉熵损失（CE）。所有模型使用AdamW优化+REX学习率调度。评估指标包括mDSC（主指标）、mIoU、mRecall、mPrecision，均为global micro-averaging去除背景类后计算。训练环境为2×NVIDIA A100 GPU，使用混合精度训练。

实验关键数据¶

主实验¶

3个数据集上的5折交叉验证结果（mDSC%，均值±标准差，加粗表示该家族最优）：

模型	类型	参数量	ISIC'18 mDSC	NeoPolyp mDSC	CAMUS mDSC	三数据集均值
VW-MiT	GP-VM	51M	91.7±0.5	89.7±0.8	91.6±0.1	91.0
VW-Conv	GP-VM	57M	91.5±0.4	89.6±1.3	91.4±0.1	90.9
TransNeXt	GP-VM	58M	91.9±0.7	89.4±0.7	91.5±0.1	90.9
InternImage	GP-VM	58M	91.3±0.4	89.6±1.1	91.4±0.2	90.8
SegNeXt	GP-VM	49M	91.4±0.6	89.2±0.7	91.6±0.1	90.7
SegFormer	GP-VM	47M	91.3±0.8	89.1±1.3	91.5±0.1	90.7
SU-Mamba	SMA	60M	91.3±0.5	88.9±0.6	91.3±0.3	90.5
HiFormer	SMA	26M	91.0±0.6	84.6±0.9	90.8±0.2	88.8
U-KAN	SMA	25M	89.2±1.1	82.5±1.7	90.5±0.2	87.4
MISSFormer	SMA	42M	90.3±0.8	82.9±1.6	90.4±0.1	87.9
U-Net	SMA	31M	89.0±0.9	83.3±1.1	89.1±0.3	87.1

消融实验¶

NeoPolyp数据集按类别的mDSC（最困难的数据集，差异最大）：

模型	C1 非肿瘤性 mDSC	C2 肿瘤性 mDSC	整体 mDSC
VW-MiT (GP-VM)	66.1±4.3	92.7±0.9	89.7
InternImage (GP-VM)	66.0±5.7	92.9±0.7	89.6
SU-Mamba (SMA)	59.2±3.8	92.5±0.6	88.9
HiFormer (SMA)	52.7±4.9	88.9±0.7	84.6
U-KAN (SMA)	36.9±12.2	87.1±0.9	82.5
U-Net (SMA)	34.9±18.2	88.1±0.6	83.3

关键发现¶

GP-VMs系统性优于SMAs：按三数据集平均mDSC排名，前6名全部是GP-VMs（91.0-90.7%），最佳SMA SU-Mamba为90.5%。差距虽小（~0.5%），但在统一协议下稳定可复现
NeoPolyp数据集差异最大：GP-VMs在多类息肉分割上优势明显——VW-MiT (89.7%) vs SU-Mamba (88.9%) vs HiFormer (84.6%)。核心原因是非肿瘤性息肉（C1）极难分割，GP-VMs的C1 mDSC达66%而多数SMAs仅35-53%，差距高达7个百分点
ISIC'18和CAMUS差距较小：在皮肤病变和心脏超声上，GP-VMs和最佳SMA的差距缩小到约1-2%，说明简单二分类和大数据量场景下架构差异被弱化
Grad-CAM验证GP-VMs的临床合理性：GP-VMs不仅精度更高，其注意力热图也更精确地聚焦在临床相关结构上。在ISIC'18案例中，GP-VMs比某些SMA更准确地关注病变区域；在CAMUS中，GP-VMs在左心房（C3）这一困难类别上检测到更多真正阳性
SU-Mamba是唯一接近GP-VMs的SMA：其Mamba状态空间模型的长程依赖建模能力使其在SMA家族中遥遥领先，但仍未超越GP-VMs

亮点与洞察¶

逆直觉的实证发现具有纠偏价值：挑战了"医学图像必须用专用架构"的社区共识。在受控对比下，通用模型的大规模预训练优势压过了专用设计的领域知识嵌入，启示研究者在提出新架构前应先验证通用模型的性能
Benchmarking方法论本身是贡献：统一协议+异构数据集+XAI分析的三层评估框架，比仅看分割精度的传统对比更全面可信。消除混淆因素的方法论可推广到其他医学AI子领域
资源配置的实践启示：如果GP-VMs已经足够好，研究者应将精力从架构创新转向数据策展、训练协议优化和OOD泛化评估——这些在临床部署中更具实际影响

局限与展望¶

仅3个2D数据集：未覆盖CT/MRI等3D成像模态，专用架构（如nnU-Net）在3D分割中的优势可能更明显
预训练数据量不公平：GP-VMs受益于ImageNet大规模预训练，而U-KAN无预训练权重只能从零训练，造成一定偏倚
计算公平性有限：模型参数量从25M到60M不等，未严格控制FLOPs/推理速度
缺少Foundation Model对比：SAM-Med2D、MedSAM等基于SAM的医学分割方法未纳入比较
未评估OOD泛化：所有评估均为域内（in-domain），未检验GP-VMs在分布外数据上的鲁棒性，而这在临床场景中至关重要

评分¶

新颖性: ⭐⭐⭐ 实证对比研究不提出新方法，但揭示了社区长期忽视的重要发现
实验充分度: ⭐⭐⭐⭐ 11模型×3数据集×5折CV设计严谨，但缺少3D和OOD评估
写作质量: ⭐⭐⭐⭐ 研究问题明确，实验设计严谨，讨论客观承认局限性
价值: ⭐⭐⭐⭐ 对医学分割领域的模型选择策略和资源分配具有直接指导意义