Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization¶
会议: CVPR2026
arXiv: 2603.12369
代码: IMPACTLabASU/GenEval
领域: 医学图像
关键词: 单源域泛化, 视觉语言模型, 因果覆盖, 共形推断, 糖尿病视网膜病变, LoRA微调, MedGemma
一句话总结¶
提出 GenEval,通过域共形界(DCB)量化因果覆盖差距,并将人类专家知识量化精炼后与医学 VLM(MedGemma-4B)融合,以 LoRA 微调实现单源域泛化,在 DR 分级和癫痫灶检测上显著超越基线。
研究背景与动机¶
域泛化难题:医学图像分类在跨域部署时性能急剧下降,现有 DG 方法在 DR 分级上无法一致性地显著超越 ERM(如 SPSD-ViT 仅比 ERM-ViT 高 1.3%,p=0.09 不显著)。
单源域更具挑战:临床场景常常只有单一来源数据可用,SDG 比 MDG 更难,SOTA 技术表现更差。
因果覆盖缺失:不同域之间存在因果因子的差距——例如 EyePACS 中有 Messidor 中缺失的新生血管化标志,导致从 Messidor 训练的模型无法准确分类 EyePACS 数据。
缺乏因果覆盖量化工具:理论上域泛化需满足因果覆盖和源风险最小化两个必要条件,但此前没有客观的方法来量化因果覆盖程度。
人类知识有价值但模糊:领域专家拥有可弥补因果差距的知识,但这些知识是定性的、含歧义的(如微动脉瘤 vs 静脉出血容易混淆),需要量化和精炼。
通用 VLM 不够鲁棒:现有医学 VLM(CLIP、CLIP-DR)在未见域上表现脆弱,且缺乏不确定性保证。
方法详解¶
整体框架¶
GenEval 分两大步骤:(1) 因果覆盖评估与知识精炼;(2) 多模态 VLM 分类。先用 DCB 理论量化域间因果差距,再通过 SDCD 指导消融选出最优知识子集,最后将精炼知识与图像融合为多模态 prompt,用 LoRA 微调 MedGemma-4B。
关键设计¶
1. 域共形界 (DCB)
- 基于 Mahalanobis 距离定义因果因子的鲁棒性度量 \(\rho(\mathcal{K}(X_i), D^s)\),即样本 \(X_i\) 与源域中其他样本的平均 Mahalanobis 距离。
- 利用共形推断构建预测区间 \(C\),使得源域内样本的鲁棒性度量以 \(\geq 1-\alpha\) 概率落入该区间。
- 若目标域样本的鲁棒性残差落入 \(C\) 内,则该样本不含源域中未涵盖的因果因子关系。
2. 源域一致性度 (SDCD)
- 计算目标域中落入 DCB 区间内的样本百分比,作为因果覆盖的量化指标。
- 证明 SDCD 与学习机器在目标域上的 SDG 性能正相关(Pearson \(r=0.692\), \(p<0.02\))。
3. 知识量化与精炼
- 用 YOLOv12 检测出血、硬性渗出物、棉絮斑等病灶,生成 14 维实值向量。
- 通过命题逻辑编码专家诊断规则(如 ICDR 分级标准)。
- 以 SDCD 为指导逐步消融知识维度,选出使平均 SDCD 最大化的知识子集(最终去除新生血管化特征效果最佳)。
4. GenEval 多模态分类
- 使用 MedGemma-4B 作为基础模型,通过 LoRA(\(r=16, \alpha=16\), dropout=0.05)微调约 95M 参数(占总 4B 的 2.4%)。
- 将精炼后的专家知识以文本形式嵌入临床结构化 prompt,与眼底图像一起输入模型。
- 推理时单张图像约 424ms,加上 YOLO 检测端到端约 633ms。
损失函数¶
采用标准的因果语言建模(Causal LM)损失进行 LoRA 微调,通过交叉熵最小化源域风险。
实验¶
主要结果¶
SDG — DR 分级(12 对源-目标迁移)
| 源域 → 目标域 | 最佳基线 | 基线准确率 | GenEval | K+D SDCD |
|---|---|---|---|---|
| Messidor → Aptos | SPSD-ViT | 48.3% | 56.0% | 98.0% |
| Messidor → EyePACS | SPSD-ViT | 57.4% | 80.0% | 94.9% |
| Messidor2 → Aptos | SPSD-ViT | 52.8% | 69.7% | 76.3% |
| Messidor2 → EyePACS | SPSD-ViT | 72.5% | 77.8% | 96.3% |
| EyePACS → Messidor2 | DRGen | 65.4% | 80.5% | 99.8% |
| EyePACS → Messidor | DRGen | 54.6% | 69.5% | 100.0% |
扩展 SDG(固定 EyePACS 训练,6 个目标域)
| 方法 | APTOS | Messidor | IDRiD | DeepDR | FGADR | RLDL | 平均 |
|---|---|---|---|---|---|---|---|
| GDRNet | 52.8 | 65.7 | 70.0 | 40.0 | 7.5 | 44.3 | 46.7 |
| DECO | 59.7 | 70.1 | 74.8 | 40.3 | 9.9 | 49.3 | 50.7 |
| GenEval | 73.2 | 69.5 | 70.6 | 59.2 | 56.9 | 67.6 | 66.2 |
消融实验¶
知识精炼消融(SDCD 指导):
| 消融操作 | SDCD (%) | 准确率 (%) |
|---|---|---|
| 不消融 | 59.0 | 65.0 |
| 去掉微动脉瘤 | 68.0 | 70.0 |
| 去掉出血/渗出物 | 71.7 | 71.1 |
| 去掉静脉串珠 | 82.8 | 73.2 |
| 去掉新生血管化 | 82.8 | 73.2 |
去除新生血管化效果最佳,因为该特征极难被 YOLO 准确检测,引入噪声反而降低 SDCD。
关键发现¶
- SDCD 与准确率正相关(\(r=0.692\), \(p<0.02\)),验证了 Lemma 1 的单调性。
- 知识集成大幅提升 SDCD:K+D SDCD 远高于单纯 D SDCD,多数情况接近 100%。
- MDG 也有显著提升:GenEval 在四域 DR 上平均 79.21% vs SPSD-ViT 73.3%(+5.9%)。
- VLM 对比:GenEval 的 macro F1 达 75.1%,比 CLIP-DR 高 +28.3%(46.8% → 75.1%)。
- SOZ 跨中心:GenEval 平均 F1 90.0% vs CuPKL 88.1%,且跨中心表现更稳定。
亮点¶
- 首次提出 DCB 理论,提供无分布假设的因果覆盖量化方法,能在部署前预测泛化是否可行。
- SDCD 指导的知识精炼机制巧妙地利用可测指标选择最优知识子集,避免了定性知识的歧义。
- 将结构化专家知识作为文本 prompt 融入 VLM,以多模态方式弥补域间因果差距,思路新颖。
- 评估规模大:8 个 DR 数据集 + 2 个 SOZ 数据集,12 对 SDG 迁移方向,极为全面。
局限性¶
- DCB 理论假设数据生成机制连续可微,对数字-物理混合系统中的阈值效应或突变可能不适用。
- YOLO 知识提取是性能瓶颈:新生血管化等复杂病灶无法可靠检测,最终不得不移除。
- 14 维知识向量依赖特定病种的专家规则,迁移到新任务需重新定义特征和逻辑,泛化成本高。
- SDCD 在低信噪比下不稳定(PSNR < 15dB 时相关性丧失),图像质量差的场景可能失效。
- 仅在 DR 和 SOZ 两个医学任务上验证,更广泛的医学影像领域(如病理、CT)未涉及。
相关工作¶
- 医学域泛化:MMD、CDANN、SD-ViT、SPSD-ViT 等对齐特征分布的方法均无法稳定超越 ERM;DRGen、DECO、GDRNet 为 DR 专用基线。
- 医学 VLM:BiomedCLIP、LLaVA-Med 实现零样本迁移;CLIP-DR 引入排序感知 prompt;MedGemma-4B 为本文采用的专用医学基础模型。
- 共形推断:分布无关的不确定性量化框架,此前用于 OOD 检测和医学 AI 部署,本文创新性地用于量化域间因果差距。
评分¶
- 新颖性: ⭐⭐⭐⭐ — DCB 理论和 SDCD 指导的知识精炼是原创性贡献,多模态知识融合思路有启发性
- 实验充分度: ⭐⭐⭐⭐⭐ — 8+2 数据集、12 对 SDG 迁移、多种基线对比、消融/敏感性分析齐全
- 写作质量: ⭐⭐⭐⭐ — 理论推导严谨,但符号密集、行文偏长,部分证明需查看补充材料
- 价值: ⭐⭐⭐⭐ — 在医学影像 SDG 实际部署场景中很有价值,DCB 可作为部署前的安全检查工具