跳转至

Doctor Approved: Generating Medically Accurate Skin Disease Images through AI-Expert Feedback

会议: NeurIPS 2025
arXiv: 2506.12323
代码: https://github.com/janet-sw/MAGIC.git
领域: 医学图像
关键词: 医学图像生成, 扩散模型, DPO, AI反馈, 皮肤病诊断

一句话总结

提出 MAGIC 框架,通过将皮肤科专家定义的临床检查清单转化为 MLLM(如 GPT-4o)可执行的评估反馈,利用 DPO 或奖励模型微调扩散模型,生成临床准确的皮肤病图像用于数据增强,在 20 类皮肤病分类任务上提升 +9.02%,少样本场景提升 +13.89%。

研究背景与动机

领域现状:深度学习在皮肤病诊断中潜力巨大,但隐私约束和数据稀缺(尤其是罕见条件和少数肤色群体)严重制约模型的泛化能力。扩散模型(DM)已被用于合成医学图像进行数据增强。

现有痛点:现有 DM 增强方法通常采用端到端生成,专家参与仅限于事后评估/过滤,而非主动引导生成过程。这导致合成图像经常缺乏临床准确性(如病变特征不正确),反而可能损害诊断模型性能。

核心矛盾:基于人类反馈的 RL(RLHF)需要大量专家标注和稳健的奖励模型训练;DPO 虽然绕过显式奖励模型,但在医学图像领域仍未充分探索。同时,直接让医学专家逐张评估大量合成图像成本极高。

本文目标 如何以最小的专家工作量获取高质量的临床反馈来引导扩散模型?

切入角度:利用 MLLM(如 GPT-4o)作为自动化评估员——专家只需设计结构化的临床检查清单(每种疾病 5 个视觉标准),MLLM 按清单评估合成图像并给出二值打分,大幅降低人工工作量。这是一种"任务中心"的对齐范式:不是让 MLLM 适应医学任务,而是将医学任务分解为 MLLM 擅长的简单视觉验证。

核心 idea:将临床专家知识编码为属性级检查清单,让通用 MLLM 自动评估合成图像,通过 DPO 引导扩散模型生成临床准确的医学图像。

方法详解

整体框架

MAGIC 流水线包括四个阶段:(1) 对 Stable Diffusion 进行预微调(Textual Inversion + LoRA)学习皮肤病概念;(2) 用微调后的 DM 通过 I2I 管线生成图像对;(3) 将图像对提交给 GPT-4o 按临床检查清单评估(5 维二值打分);(4) 利用评估反馈通过 DPO 或 RFT 进一步微调 DM。最终用增强数据训练分类器。

关键设计

  1. 预微调(Textual Inversion + LoRA):

    • 功能:让预训练的 Stable Diffusion 理解特定皮肤病概念
    • 核心思路:先通过 Textual Inversion 学习每种疾病的独特 token embedding \(v_*\),再用 LoRA(低秩矩阵 \(A \in \mathbb{R}^{n \times r}, B \in \mathbb{R}^{r \times n}\))微调 UNet 注意力层,捕捉精细的病变视觉特征
    • 设计动机:现成的扩散模型缺乏皮肤病变的领域知识,直接生成效果差
  2. MLLM 驱动的专家反馈收集:

    • 功能:用 GPT-4o 按照皮肤科医生设计的 5 维检查清单(位置、病变类型、形状/大小、颜色、质地)自动评估合成图像
    • 核心思路:每次生成一对图像,分别提交给 MLLM 评估,返回 5 维二值向量(如 [1,0,0,1,0]),按预定算法聚合为总体二值评分。这同时产生 RFT 的单样本反馈和 DPO 的偏好对
    • 设计动机:将复杂的医学诊断推理任务转化为简单的闭合式视觉验证,大幅降低 MLLM 幻觉风险;仅处理合成图像,保护患者隐私
  3. 基于反馈的微调——DPO 路径:

    • 功能:直接用偏好数据优化扩散模型参数,无需训练显式奖励模型
    • 核心思路:将去噪过程建模为多步 MDP,赢家/输家图像的生成路径中每个状态-动作对都获得 +1/-1 奖励。构建 \(t' = \gamma T\) 个子段以最大化学习效率: \(\mathcal{L}_{\text{DPO}}^i(\theta) = -\mathbb{E}[\log \sigma(\beta \log \frac{\pi_\theta(a_i^w|s_i^w)}{\pi_{\text{ref}}(a_i^w|s_i^w)} - \beta \log \frac{\pi_\theta(a_i^l|s_i^l)}{\pi_{\text{ref}}(a_i^l|s_i^l)})]\)
    • 设计动机:DPO 绕过奖励模型训练,在反馈数据有限的专业领域更稳健
  4. I2I 生成策略:

    • 功能:从真实皮肤病图像出发,通过部分加噪 + 文本引导去噪生成目标疾病图像
    • 核心思路:保留源图像的身体部位信息,仅转换病变语义,实现因子化翻译
    • 设计动机:减少语义失真,防止分类器学习到虚假关联(如将特定病变与特定身体部位关联)

损失函数 / 训练策略

  • RFT 路径:训练奖励模型 \(\mathcal{L}_{\text{RM}}(\phi) = \sum (y - \mathcal{R}_\phi(x,c))^2\),然后用奖励加权似然最大化微调 DM
  • DPO 路径:多段式损失,同时约束真实数据的保真度
  • 分类器训练时控制合成数据比例 \(\rho = 0.2\),避免过拟合到合成分布

实验关键数据

主实验(Fitzpatrick17k 20 类子集)

方法 ResNet18 Acc ResNet18 F1 DINOv2 Acc DINOv2 F1
Real only 29.31% 28.73% 49.89% 49.43%
+ T2I 25.57% (-3.74) 24.63% 47.73% (-2.16) 47.26%
+ I2I 31.45% (+2.14) 31.09% 50.71% (+0.82) 50.17%
+ MAGIC-RFT 33.49% (+4.18) 30.40% 51.16% (+1.27) 52.66%
+ MAGIC-DPO 38.33% (+9.02) 37.01% 55.01% (+5.12) 54.05%

消融实验

消融项 ResNet18 Acc DINOv2 Acc 说明
MAGIC-DPO (Structured checklist) 38.33% 55.01% 完整模型
MAGIC-DPO (Coarse checklist) 32.83% (-5.50) 51.16% (-3.85) 粗粒度清单效果明显下降
少样本 (310样本) + MAGIC-DPO 37.39% (+10.94) 数据极稀缺时增益更大
少样本 + MAGIC-A (含无标注) 40.34% (+13.89) 利用无标注数据进一步提升
GPT-4o 评估 38.33% 55.01% 默认 MLLM
MedGemma-4B 评估 36.97% 54.19% 开源替代,性能接近

关键发现

  • MAGIC-DPO 显著优于 RFT,可能因为 DPO 绕过奖励模型直接优化偏好对齐,在有限反馈下更稳健
  • 检查清单质量对结果影响极大:结构化清单比粗粒度清单在 ResNet18 上多提升 5.5%
  • 合成数据比例 \(\rho \in [0.1, 0.3]\) 时性能稳定,\(\rho = 0.2\) 为最优
  • 约 512 对反馈后 DPO 性能趋于稳定,说明不需要海量反馈
  • T2I 生成反而降低性能(-3.74%),说明不加引导的合成图像会引入噪声
  • 皮肤科医生评估显示 MAGIC-DPO 生成图像中 55.5% 满足 3+ 条临床标准,远超 baseline

亮点与洞察

  • 任务中心对齐范式:不是让 MLLM 成为医学专家,而是将医学判断分解为 MLLM 能可靠完成的简单视觉验证——这个思路可推广到任何专业领域的 AI 反馈
  • I2I 的因子化翻译:保留身体部位信息只改变病变特征,既提高了医学合理性,又防止分类器学习虚假关联
  • 开源 MLLM 可替代:MedGemma-4B 与 GPT-4o 效果接近,降低了对闭源 API 的依赖
  • 抗幻觉设计:将开放式医学推理转化为封闭式检查清单验证,从架构层面减少 MLLM 幻觉

局限与展望

  • 框架性能受 MLLM 能力限制,尤其是视觉细粒度理解上仍有不足
  • 仅在 Fitzpatrick17k 的 20 类子集上验证,更多疾病类型和数据集需要测试
  • 检查清单需要皮肤科专家设计,扩展到新疾病仍需人工工作
  • 合成数据与真实数据之间的域偏移仍存在,合成/真实比例需仔细调节
  • 可探索更细粒度的 9 标准检查清单(文中提到进一步提升但幅度有限)

相关工作与启发

  • vs 去噪扩散概率模型增强 (Sagers et al.):之前工作使用 DreamBooth/Textual Inversion 微调后直接生成,无专家反馈引导,合成质量不可控
  • vs RLHF 微调 DM (Reward-weighted MDP):传统方法需要大量人工评估训练奖励模型,MAGIC 用 MLLM + 检查清单大幅降低人工成本
  • vs DPO for DM (Yang et al.):之前 DPO 在自然图像上探索,本文首次系统应用于医学图像生成
  • 对其他医学影像模态(如放射学、病理学)的合成增强有直接借鉴价值

评分

  • 新颖性: ⭐⭐⭐⭐ MLLM 作为评估员 + 检查清单引导 DPO 微调是巧妙的组合,但各组件均为已有技术
  • 实验充分度: ⭐⭐⭐⭐ 多骨干网络、多基线、消融充分,FID/专家评估/分类三方面验证,但数据集和疾病类型有限
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,动机充分,但公式符号较多需仔细阅读
  • 价值: ⭐⭐⭐⭐⭐ 在数据稀缺的医学影像领域提供了可扩展的 AI-专家协作方案,少样本场景 +13.89% 的提升非常实用