Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization¶

会议: CVPR2025
arXiv: 2603.12369
代码: GitHub
领域: 医学图像
关键词: domain generalization, vision-language model, diabetic retinopathy, conformal inference, LoRA

一句话总结¶

提出 GenEval，通过域共形界（DCB）理论量化因果覆盖差距，并将人类专家知识与 MedGemma-4B 视觉语言模型结合，实现单源域泛化（SDG），在糖尿病视网膜病变分级（8 个数据集）和癫痫灶检测（2 个数据集）上大幅超越现有方法。

研究背景与动机¶

跨域泛化是医学图像分类的核心挑战。糖尿病视网膜病变（DR）分级中，不同数据集在采集设备、人群特征、协议等方面存在域差异。近期理论研究揭示了域泛化的两个必要条件：(1) 因果覆盖——源域包含目标域所需的所有因果因素；(2) 源风险最小化。然而，现有 DG 方法（如 SPSD-ViT）未能一致性地超越 ERM 基线，且无法在部署时判断新域是否超出训练支持范围。

核心问题：不同 DR 数据集之间存在因果差距。例如，新生血管化是 Grade 4 DR 的关键因果因素，存在于 EyePACS 但不存在于 Messidor 1 中。从 Messidor 1 学习的模型无法识别 EyePACS 中的新生血管化。

解决思路：人类专家知识可以补偿域间的因果差距，通过多模态（图像+文本知识）方式输入基础视觉语言模型实现更好的泛化。但专家知识是定性的、模糊的，需要量化和精炼。

方法详解¶

理论框架：域共形界（DCB）¶

Step 1 — 计算 DCB： - 定义鲁棒性度量 \(\rho(\mathcal{K}(X_i), D^s)\)：数据点 \(X_i\) 的因果因素估计与源域中其他样本的平均 Mahalanobis 距离 - 基于共形推断，将源域分为 \(I_T\) 和 \(I_V\)，计算残差分布，得到分布无关的预测区间 \(C\) - 若目标域样本的鲁棒性度量落在 \(C\) 内，则该样本与源域具有相同的因果因素关系（概率 \(\geq 1-\alpha\)）

Step 2 — 源域一致性度（SDCD）： - 计算目标域中落在源域 DCB 内的样本比例 - 证明 SDCD 与 SDG 性能正相关（Lemma 1），Pearson 相关系数 0.692（p < 0.02）

Step 3 — 知识精炼： - 使用 YOLOv12 从眼底图像中检测微动脉瘤、出血等病变，量化为 14 维实值向量 - 通过逐步消融知识成分并计算 SDCD 变化，选择使 SDCD 最大化的知识子集 - 发现移除新生血管化（因 YOLO 难以检测）后 SDCD 最优

GenEval 多模态分类引擎¶

基础模型：MedGemma-4B，预训练于海量医学图像-文本对
参数高效微调：使用 LoRA（rank=16，α=16），仅训练约 2.4% 参数（~95M / 4B）
提示设计：将精炼后的专家知识融入结构化临床提示中，结合图像输入
零样本提示：详细描述 DR 0-4 级的临床标准
微调提示：角色扮演 + 系统检查协议 + 精炼知识

因果因素提取¶

从数据：基于 Koopman 理论将非线性动力系统线性化，通过 STRIDGE 回归识别稀疏因果因素
从知识：专家知识表达为命题逻辑公式，真值评估提供因果因素关系的量化

实验关键数据¶

单源域泛化（SDG）：

源域 → 目标域	最佳基线	基线 Acc	GenEval Acc	K+D SDCD
Messidor → APTOS	SPSD-ViT	48.3%	56.0%	98.03%
Messidor → EyePACS	SPSD-ViT	57.4%	80.04%	94.94%
EyePACS → APTOS	SPSD-ViT	75.1%	73.16%	99.84%
EyePACS → Messidor2	DRGen	65.4%	80.5%	99.83%

扩展 SDG（EyePACS → 6 个目标域）：

方法	APTOS	DeepDR	FGADR	RLDL	平均
DECO	59.7	40.3	9.9	49.3	50.68
GenEval	73.2	59.2	56.9	67.6	66.2

与 VLM 方法对比（SDG F1）：

方法	APTOS	Messidor	平均
CLIP-DR	46.3	47.3	46.8
GenEval	72.0	78.2	75.1

多源域泛化：GenEval 平均 79.21% vs SPSD-ViT 73.3%（+5.91%）

SOZ 检测（跨中心 SDG）：GenEval 平均 F1 90.0% vs CuPKL 88.1%

亮点¶

理论贡献突出：DCB 提供了分布无关的因果覆盖评估框架，SDCD 可预测 SDG 性能
首次系统地将人类专家知识量化、精炼并整合到 VLM 中用于域泛化
在 FGADR 数据集上从 DECO 的 9.9% 提升到 56.9%，提升幅度惊人
知识精炼策略有理论指导（SDCD 最大化），不是盲目堆叠
框架通用性强，在 DR 和 SOZ 两个完全不同的任务上均验证有效

局限性¶

假设数据生成机制连续可微，实际中可能存在突变/阈值效应
YOLOv12 对某些因果因素（如新生血管化）检测能力不足，限制了知识量化精度
MedGemma-4B 的微调和推理需要较大计算资源（虽 LoRA 降低了门槛）
知识提取依赖领域专家，泛化到新领域需重新定义知识
部分 SDG 实验使用了其他文献的基线数据，实验设置可能不完全一致

评分¶

新颖性: ⭐⭐⭐⭐⭐ (DCB 理论+知识精炼+VLM 融合的完整体系，创新性极高)
实验充分度: ⭐⭐⭐⭐⭐ (8+2 个数据集，SDG/MDG/VLM 多维对比，敏感性分析)
写作质量: ⭐⭐⭐⭐ (理论推导严谨，但内容密集读起来较重)
价值: ⭐⭐⭐⭐⭐ (解决了 SDG 的核心难题，对医学 AI 部署有直接指导意义)