跳转至

Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization

会议: CVPR2025
arXiv: 2603.12369
代码: GitHub
领域: 医学图像
关键词: domain generalization, vision-language model, diabetic retinopathy, conformal inference, LoRA

一句话总结

提出 GenEval,通过域共形界(DCB)理论量化因果覆盖差距,并将人类专家知识与 MedGemma-4B 视觉语言模型结合,实现单源域泛化(SDG),在糖尿病视网膜病变分级(8 个数据集)和癫痫灶检测(2 个数据集)上大幅超越现有方法。

研究背景与动机

跨域泛化是医学图像分类的核心挑战。糖尿病视网膜病变(DR)分级中,不同数据集在采集设备、人群特征、协议等方面存在域差异。近期理论研究揭示了域泛化的两个必要条件:(1) 因果覆盖——源域包含目标域所需的所有因果因素;(2) 源风险最小化。然而,现有 DG 方法(如 SPSD-ViT)未能一致性地超越 ERM 基线,且无法在部署时判断新域是否超出训练支持范围。

核心问题:不同 DR 数据集之间存在因果差距。例如,新生血管化是 Grade 4 DR 的关键因果因素,存在于 EyePACS 但不存在于 Messidor 1 中。从 Messidor 1 学习的模型无法识别 EyePACS 中的新生血管化。

解决思路:人类专家知识可以补偿域间的因果差距,通过多模态(图像+文本知识)方式输入基础视觉语言模型实现更好的泛化。但专家知识是定性的、模糊的,需要量化和精炼。

方法详解

理论框架:域共形界(DCB)

Step 1 — 计算 DCB: - 定义鲁棒性度量 \(\rho(\mathcal{K}(X_i), D^s)\):数据点 \(X_i\) 的因果因素估计与源域中其他样本的平均 Mahalanobis 距离 - 基于共形推断,将源域分为 \(I_T\)\(I_V\),计算残差分布,得到分布无关的预测区间 \(C\) - 若目标域样本的鲁棒性度量落在 \(C\) 内,则该样本与源域具有相同的因果因素关系(概率 \(\geq 1-\alpha\)

Step 2 — 源域一致性度(SDCD): - 计算目标域中落在源域 DCB 内的样本比例 - 证明 SDCD 与 SDG 性能正相关(Lemma 1),Pearson 相关系数 0.692(p < 0.02)

Step 3 — 知识精炼: - 使用 YOLOv12 从眼底图像中检测微动脉瘤、出血等病变,量化为 14 维实值向量 - 通过逐步消融知识成分并计算 SDCD 变化,选择使 SDCD 最大化的知识子集 - 发现移除新生血管化(因 YOLO 难以检测)后 SDCD 最优

GenEval 多模态分类引擎

  • 基础模型:MedGemma-4B,预训练于海量医学图像-文本对
  • 参数高效微调:使用 LoRA(rank=16,α=16),仅训练约 2.4% 参数(~95M / 4B)
  • 提示设计:将精炼后的专家知识融入结构化临床提示中,结合图像输入
  • 零样本提示:详细描述 DR 0-4 级的临床标准
  • 微调提示:角色扮演 + 系统检查协议 + 精炼知识

因果因素提取

  • 从数据:基于 Koopman 理论将非线性动力系统线性化,通过 STRIDGE 回归识别稀疏因果因素
  • 从知识:专家知识表达为命题逻辑公式,真值评估提供因果因素关系的量化

实验关键数据

单源域泛化(SDG)

源域 → 目标域 最佳基线 基线 Acc GenEval Acc K+D SDCD
Messidor → APTOS SPSD-ViT 48.3% 56.0% 98.03%
Messidor → EyePACS SPSD-ViT 57.4% 80.04% 94.94%
EyePACS → APTOS SPSD-ViT 75.1% 73.16% 99.84%
EyePACS → Messidor2 DRGen 65.4% 80.5% 99.83%

扩展 SDG(EyePACS → 6 个目标域)

方法 APTOS DeepDR FGADR RLDL 平均
DECO 59.7 40.3 9.9 49.3 50.68
GenEval 73.2 59.2 56.9 67.6 66.2

与 VLM 方法对比(SDG F1)

方法 APTOS Messidor 平均
CLIP-DR 46.3 47.3 46.8
GenEval 72.0 78.2 75.1

多源域泛化:GenEval 平均 79.21% vs SPSD-ViT 73.3%(+5.91%)

SOZ 检测(跨中心 SDG):GenEval 平均 F1 90.0% vs CuPKL 88.1%

亮点

  • 理论贡献突出:DCB 提供了分布无关的因果覆盖评估框架,SDCD 可预测 SDG 性能
  • 首次系统地将人类专家知识量化、精炼并整合到 VLM 中用于域泛化
  • 在 FGADR 数据集上从 DECO 的 9.9% 提升到 56.9%,提升幅度惊人
  • 知识精炼策略有理论指导(SDCD 最大化),不是盲目堆叠
  • 框架通用性强,在 DR 和 SOZ 两个完全不同的任务上均验证有效

局限性

  • 假设数据生成机制连续可微,实际中可能存在突变/阈值效应
  • YOLOv12 对某些因果因素(如新生血管化)检测能力不足,限制了知识量化精度
  • MedGemma-4B 的微调和推理需要较大计算资源(虽 LoRA 降低了门槛)
  • 知识提取依赖领域专家,泛化到新领域需重新定义知识
  • 部分 SDG 实验使用了其他文献的基线数据,实验设置可能不完全一致

相关工作

  • SPSD-ViT (Rao et al.):当前最强 DG 基线,使用自蒸馏 ViT,但在 SDG 中改进不显著
  • CLIP-DR:CLIP 适配 DR 分类的排序感知提示方法,本文大幅超越(+28.3% F1)
  • MedGemma-4B:专门预训练的医学 VLM,本文通过 LoRA 微调适配
  • 共形推断 (Angelopoulos & Bates):本文 DCB 理论的方法论基础
  • Koopman 理论:用于从数据中提取因果因素关系的理论工具

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (DCB 理论+知识精炼+VLM 融合的完整体系,创新性极高)
  • 实验充分度: ⭐⭐⭐⭐⭐ (8+2 个数据集,SDG/MDG/VLM 多维对比,敏感性分析)
  • 写作质量: ⭐⭐⭐⭐ (理论推导严谨,但内容密集读起来较重)
  • 价值: ⭐⭐⭐⭐⭐ (解决了 SDG 的核心难题,对医学 AI 部署有直接指导意义)