跳转至

Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization

会议: CVPR2026
arXiv: 2603.12369
代码: IMPACTLabASU/GenEval
领域: 医学图像
关键词: 单源域泛化, 视觉语言模型, 因果覆盖, 共形推断, 糖尿病视网膜病变, LoRA微调, MedGemma

一句话总结

提出 GenEval,通过域共形界(DCB)量化因果覆盖差距,并将人类专家知识量化精炼后与医学 VLM(MedGemma-4B)融合,以 LoRA 微调实现单源域泛化,在 DR 分级和癫痫灶检测上显著超越基线。

研究背景与动机

域泛化难题:医学图像分类在跨域部署时性能急剧下降,现有 DG 方法在 DR 分级上无法一致性地显著超越 ERM(如 SPSD-ViT 仅比 ERM-ViT 高 1.3%,p=0.09 不显著)。

单源域更具挑战:临床场景常常只有单一来源数据可用,SDG 比 MDG 更难,SOTA 技术表现更差。

因果覆盖缺失:不同域之间存在因果因子的差距——例如 EyePACS 中有 Messidor 中缺失的新生血管化标志,导致从 Messidor 训练的模型无法准确分类 EyePACS 数据。

缺乏因果覆盖量化工具:理论上域泛化需满足因果覆盖和源风险最小化两个必要条件,但此前没有客观的方法来量化因果覆盖程度。

人类知识有价值但模糊:领域专家拥有可弥补因果差距的知识,但这些知识是定性的、含歧义的(如微动脉瘤 vs 静脉出血容易混淆),需要量化和精炼。

通用 VLM 不够鲁棒:现有医学 VLM(CLIP、CLIP-DR)在未见域上表现脆弱,且缺乏不确定性保证。

方法详解

整体框架

GenEval 分两大步骤:(1) 因果覆盖评估与知识精炼;(2) 多模态 VLM 分类。先用 DCB 理论量化域间因果差距,再通过 SDCD 指导消融选出最优知识子集,最后将精炼知识与图像融合为多模态 prompt,用 LoRA 微调 MedGemma-4B。

关键设计

1. 域共形界 (DCB)

  • 基于 Mahalanobis 距离定义因果因子的鲁棒性度量 \(\rho(\mathcal{K}(X_i), D^s)\),即样本 \(X_i\) 与源域中其他样本的平均 Mahalanobis 距离。
  • 利用共形推断构建预测区间 \(C\),使得源域内样本的鲁棒性度量以 \(\geq 1-\alpha\) 概率落入该区间。
  • 若目标域样本的鲁棒性残差落入 \(C\) 内,则该样本不含源域中未涵盖的因果因子关系。

2. 源域一致性度 (SDCD)

  • 计算目标域中落入 DCB 区间内的样本百分比,作为因果覆盖的量化指标。
  • 证明 SDCD 与学习机器在目标域上的 SDG 性能正相关(Pearson \(r=0.692\), \(p<0.02\))。

3. 知识量化与精炼

  • 用 YOLOv12 检测出血、硬性渗出物、棉絮斑等病灶,生成 14 维实值向量。
  • 通过命题逻辑编码专家诊断规则(如 ICDR 分级标准)。
  • 以 SDCD 为指导逐步消融知识维度,选出使平均 SDCD 最大化的知识子集(最终去除新生血管化特征效果最佳)。

4. GenEval 多模态分类

  • 使用 MedGemma-4B 作为基础模型,通过 LoRA(\(r=16, \alpha=16\), dropout=0.05)微调约 95M 参数(占总 4B 的 2.4%)。
  • 将精炼后的专家知识以文本形式嵌入临床结构化 prompt,与眼底图像一起输入模型。
  • 推理时单张图像约 424ms,加上 YOLO 检测端到端约 633ms。

损失函数

采用标准的因果语言建模(Causal LM)损失进行 LoRA 微调,通过交叉熵最小化源域风险。

实验

主要结果

SDG — DR 分级(12 对源-目标迁移)

源域 → 目标域 最佳基线 基线准确率 GenEval K+D SDCD
Messidor → Aptos SPSD-ViT 48.3% 56.0% 98.0%
Messidor → EyePACS SPSD-ViT 57.4% 80.0% 94.9%
Messidor2 → Aptos SPSD-ViT 52.8% 69.7% 76.3%
Messidor2 → EyePACS SPSD-ViT 72.5% 77.8% 96.3%
EyePACS → Messidor2 DRGen 65.4% 80.5% 99.8%
EyePACS → Messidor DRGen 54.6% 69.5% 100.0%

扩展 SDG(固定 EyePACS 训练,6 个目标域)

方法 APTOS Messidor IDRiD DeepDR FGADR RLDL 平均
GDRNet 52.8 65.7 70.0 40.0 7.5 44.3 46.7
DECO 59.7 70.1 74.8 40.3 9.9 49.3 50.7
GenEval 73.2 69.5 70.6 59.2 56.9 67.6 66.2

消融实验

知识精炼消融(SDCD 指导):

消融操作 SDCD (%) 准确率 (%)
不消融 59.0 65.0
去掉微动脉瘤 68.0 70.0
去掉出血/渗出物 71.7 71.1
去掉静脉串珠 82.8 73.2
去掉新生血管化 82.8 73.2

去除新生血管化效果最佳,因为该特征极难被 YOLO 准确检测,引入噪声反而降低 SDCD。

关键发现

  • SDCD 与准确率正相关\(r=0.692\), \(p<0.02\)),验证了 Lemma 1 的单调性。
  • 知识集成大幅提升 SDCD:K+D SDCD 远高于单纯 D SDCD,多数情况接近 100%。
  • MDG 也有显著提升:GenEval 在四域 DR 上平均 79.21% vs SPSD-ViT 73.3%(+5.9%)。
  • VLM 对比:GenEval 的 macro F1 达 75.1%,比 CLIP-DR 高 +28.3%(46.8% → 75.1%)。
  • SOZ 跨中心:GenEval 平均 F1 90.0% vs CuPKL 88.1%,且跨中心表现更稳定。

亮点

  • 首次提出 DCB 理论,提供无分布假设的因果覆盖量化方法,能在部署前预测泛化是否可行。
  • SDCD 指导的知识精炼机制巧妙地利用可测指标选择最优知识子集,避免了定性知识的歧义。
  • 将结构化专家知识作为文本 prompt 融入 VLM,以多模态方式弥补域间因果差距,思路新颖。
  • 评估规模大:8 个 DR 数据集 + 2 个 SOZ 数据集,12 对 SDG 迁移方向,极为全面。

局限性

  • DCB 理论假设数据生成机制连续可微,对数字-物理混合系统中的阈值效应或突变可能不适用。
  • YOLO 知识提取是性能瓶颈:新生血管化等复杂病灶无法可靠检测,最终不得不移除。
  • 14 维知识向量依赖特定病种的专家规则,迁移到新任务需重新定义特征和逻辑,泛化成本高。
  • SDCD 在低信噪比下不稳定(PSNR < 15dB 时相关性丧失),图像质量差的场景可能失效。
  • 仅在 DR 和 SOZ 两个医学任务上验证,更广泛的医学影像领域(如病理、CT)未涉及。

相关工作

  • 医学域泛化:MMD、CDANN、SD-ViT、SPSD-ViT 等对齐特征分布的方法均无法稳定超越 ERM;DRGen、DECO、GDRNet 为 DR 专用基线。
  • 医学 VLM:BiomedCLIP、LLaVA-Med 实现零样本迁移;CLIP-DR 引入排序感知 prompt;MedGemma-4B 为本文采用的专用医学基础模型。
  • 共形推断:分布无关的不确定性量化框架,此前用于 OOD 检测和医学 AI 部署,本文创新性地用于量化域间因果差距。

评分

  • 新颖性: ⭐⭐⭐⭐ — DCB 理论和 SDCD 指导的知识精炼是原创性贡献,多模态知识融合思路有启发性
  • 实验充分度: ⭐⭐⭐⭐⭐ — 8+2 数据集、12 对 SDG 迁移、多种基线对比、消融/敏感性分析齐全
  • 写作质量: ⭐⭐⭐⭐ — 理论推导严谨,但符号密集、行文偏长,部分证明需查看补充材料
  • 价值: ⭐⭐⭐⭐ — 在医学影像 SDG 实际部署场景中很有价值,DCB 可作为部署前的安全检查工具