Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-Supervised Medical Image Segmentation¶

会议: CVPR 2025
arXiv: 见CVF
代码: 待确认
领域: 医学图像 / 对齐RLHF
关键词: SAM, 半监督分割, DPO偏好优化, 无监督提示生成, 虚拟标注器

一句话总结¶

提出一种增强 SAM 的半监督医学图像分割框架：通过 CLIP 和 VQA 无监督生成包含语义、位置和形状信息的高效提示（无需专家标注），再用 DPO 偏好优化技术配合虚拟标注器（代替人类标注者提供排名/评分）训练最优分割策略，在肺分割、乳腺肿瘤分割、器官分割等多模态任务上达到 SOTA。

研究背景与动机¶

领域现状：Segment Anything Model（SAM）作为视觉基础模型在医学图像分割领域展现出强大潜力，理论上可以泛化到多种下游分割任务。然而 SAM 本质上是一个监督模型，其强大表现依赖于大规模标注数据或领域专家提供的高质量提示（如点/框/掩码提示）。

现有痛点：医学图像标注成本极高——需要放射科医生等专业人员逐像素标注，且不同模态（X-ray/超声/CT）的标注协议不同，难以规模化。传统的缓解策略如主动学习（active learning）虽然减少了标注量，但仍然需要持续的人工参与来精炼标签或建立奖励的 ground truth，范围有限且流程复杂。更关键的是，SAM 的提示机制（prompt）本身就需要专家介入来提供位置先验，这形成了"使用基础模型仍需专家"的悖论。

核心矛盾：SAM 的强大泛化能力需要精确的提示输入来激活，但医学场景下获取精确提示的成本与获取标注几乎一样高。如何在无监督或半监督设置下自动生成有效的 SAM 提示，同时保证分割质量，是核心挑战。

本文目标 (1) 如何不依赖专家标注就能为 SAM 生成有效的分割提示？(2) 如何在低标注数据场景下优化 SAM 的分割策略，使其产出高保真分割结果？

切入角度：将 CLIP 的视觉-语言对齐能力和 VQA 的问答能力用于自动提取医学图像的语义/位置/形状信息作为 SAM 提示，再借鉴 LLM 领域的 DPO 偏好优化思想，用虚拟标注器提供的简单排名/评分来优化分割策略，完全绕过了传统的像素级标注需求。

核心 idea：用 CLIP+VQA 自动生成 SAM 提示，用 DPO+虚拟标注器做偏好优化，实现无需专家标注的高质量半监督医学分割。

方法详解¶

整体框架¶

输入医学图像 → CLIP 提供语义级特征（识别目标区域的语义信息）+ VQA 模块通过问答获取位置和形状先验 → 融合生成 SAM 的提示（点/框提示或密集提示）→ SAM 生成多个候选分割 → 虚拟标注器对候选分割进行排名/评分 → DPO 偏好优化训练最优分割策略。全流程无需人工标注介入。

关键设计¶

无监督提示生成模块（CLIP + VQA）:
- 功能：在无人工标注的情况下，自动为 SAM 生成包含语义、位置和形状信息的高效提示
- 核心思路：利用 CLIP 的对比学习预训练能力做语义级别的区域定位——将医学术语（如"lung"、"tumor"）与图像区域对齐，找到最可能包含目标的位置。同时利用 VQA 模型回答关于目标形状、大小、边界等问题，补充空间先验。两者融合后生成 SAM 可以接受的提示格式（如边界框或点标注）
- 设计动机：传统 SAM 提示需要专家手动提供，成本高且不可扩展。CLIP 和 VQA 都是预训练模型，不需要针对具体任务的标注数据，天然适合无监督场景
DPO 偏好优化策略:
- 功能：通过偏好学习而非传统监督学习来优化 SAM 的分割输出质量
- 核心思路：借鉴 LLM 领域的 DPO（Direct Preference Optimization），将分割任务重构为偏好学习问题。给定同一图像的两个候选分割结果，由虚拟标注器判断哪个更好（而非提供像素级标签），模型学习一个最优策略使其输出的分割结果符合偏好排序。DPO 的核心优势是不需要显式的奖励模型，直接从偏好对中学习
- 设计动机：医学分割的 ground truth 标注成本高，但"哪个分割更好"的相对判断远比"像素级精确标注"简单得多。DPO 将标注需求从绝对判断降级为相对排名
虚拟标注器（Virtual Annotator）:
- 功能：模拟人类标注过程，为候选分割结果提供评分或排名
- 核心思路：设计一个自动化的评估器，基于分割结果的连通性、边界平滑度、与 CLIP 语义特征的一致性等指标，自动对多个候选分割进行排序。这个虚拟标注器替代了传统 RLHF 中的人类标注环节，使整个流程完全自动化
- 设计动机：DPO 需要偏好数据（win/lose对），人类标注者成本高且不一致。虚拟标注器通过可计算的质量指标提供一致的、可扩展的偏好信号

损失函数 / 训练策略¶

采用 DPO 损失函数训练分割策略：给定偏好对 \((y_w, y_l)\)（win 分割和 lose 分割），DPO 损失鼓励模型输出更接近 \(y_w\) 的分割结果。训练分为两阶段：先用无监督提示生成初始候选分割并收集偏好数据，再用 DPO 优化模型策略。

实验关键数据¶

主实验¶

任务	模态	指标	本文框架表现
肺分割	X-ray	Dice / IoU	SOTA
乳腺肿瘤分割	超声	Dice / IoU	SOTA
器官分割	腹部CT	Dice / IoU	SOTA

方法在三种不同模态的医学分割任务上均达到了最优表现，证明了框架的跨模态泛化能力。

消融实验¶

配置	效果	说明
Full model（CLIP + VQA + DPO）	最优	完整框架
w/o DPO（仅用无监督提示）	下降	偏好优化对提升分割质量至关重要
w/o VQA（仅用 CLIP 提示）	下降	VQA 提供的形状/位置先验有贡献
w/o 虚拟标注器（用随机偏好）	显著下降	虚拟标注器的质量判断是 DPO 有效性的关键

关键发现¶

无监督提示生成的质量出乎意料地好——CLIP 的跨模态语义对齐能力在医学图像上也有效
DPO 偏好优化相比传统半监督方法的优势在于：不需要精确的伪标签，只需要"哪个更好"的相对判断
虚拟标注器的设计是方法有效性的关键环节——随机偏好对训练几乎没有帮助
跨三种模态的一致提升说明框架的泛化性好，不依赖于特定模态的先验知识

亮点与洞察¶

将 DPO 引入医学分割是新颖的跨领域迁移——DPO 原本用于 LLM 对齐，本文巧妙地将其应用到分割任务中，将标注需求从"像素级标签"降级为"排名/评分"，大幅降低了标注成本
CLIP + VQA 做无监督提示生成的思路可以迁移到其他需要 SAM 但缺乏标注的领域（如遥感、工业检测）
虚拟标注器替代人类标注的设计将 RLHF 的成本进一步降低到零人工，是自动化 alignment 的有价值探索

局限与展望¶

虚拟标注器的质量上界受限于其设计的启发式指标——如果指标不能准确反映分割质量，DPO 优化方向可能偏差
CLIP 的医学图像理解能力有限——通用CLIP可能对专业医学术语和罕见病变的定位不够精确，可考虑使用 BiomedCLIP 等医学专用预训练模型
半监督设置下与全监督方法的差距未明确量化——需要了解在不同标注比例下性能曲线
未探索 3D 医学分割场景（如 3D CT/MRI volume）——当前验证集中在 2D 切片

评分¶

新颖性: ⭐⭐⭐⭐ 将 DPO 偏好优化引入医学分割是巧妙的跨领域迁移
实验充分度: ⭐⭐⭐⭐ 三种模态三种任务覆盖面广，但缺乏具体数值表格
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法流程直观
价值: ⭐⭐⭐⭐ 对低标注医学分割有实际价值，DPO+虚拟标注器范式可迁移