Exploring Compositional Generalization of Multimodal LLMs for Medical Imaging¶

会议: ACL 2025
arXiv: 2412.20070
代码: https://github.com/FreedomIntelligence/Med-MAT
作者: Zhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
机构: The Chinese University of Hong Kong, Shenzhen
领域: 多模态大模型 / 医学影像
关键词: 组合泛化, 多模态LLM, 医学影像, MAT-Triplet, 多任务训练, 泛化分析

一句话总结¶

提出 Med-MAT 数据集（106个医学数据集、53个子集），通过 MAT-Triplet（Modality-Anatomical area-Task）分解医学影像属性，首次系统验证了多模态大模型在医学影像上存在组合泛化（Compositional Generalization）现象，并证明组合泛化是多任务训练泛化增益的关键驱动因素。

研究背景与动机¶

领域现状：多模态大模型（MLLMs）如 LLaVA 在医学影像分析中展现出强泛化能力。现有研究（Mo & Liang 2024; Ren et al. 2024）证实多任务训练优于单任务训练，但泛化的内在机制仍不清楚。

核心问题：多任务训练中，不同任务之间的相互促进究竟源于什么？现有工作仅观察到泛化现象，没有深入分析其内部结构化原因。

关键洞察：医学影像可以用三个正交维度精确定义——模态（X-ray、CT等）、解剖区域（Lung、Brain等）和医学任务（Cancer、State等）。这天然形成了组合泛化的试验场：模型可以学会"X-ray + Lung"和"CT + Brain"，来泛化到未见的"X-ray + Brain"。

研究动机：借助组合泛化（CG）理论框架来解释和验证 MLLMs 在医学影像上的泛化现象，从而揭示多任务训练的泛化本质。

方法详解¶

整体框架：Med-MAT 数据集构建¶

数据来源：收集 106 个公开医学影像数据集（标签-图像对）
MAT-Triplet 定义：每个样本由 (Modality, Anatomical area, Task) 三元组唯一刻画
数据合并：MAT-Triplet 完全相同的数据集合并为一个子集，最终形成 53 个子集
覆盖范围：11 种模态、14 个解剖区域、13 种医学任务
训练集/测试集划分：按原始分布或 9:1 划分，训练集每个子集限制 3000 样本（保持标签平衡），不足 3000 的作为 OOD 测试集
QA 格式转换：所有样本转为 VQA 格式（单选题，最多4个选项），每个子集手动设计 6 条指令模板

组合泛化验证实验设计¶

Step 1: CG 存在性验证

选定某个子集为 Target（目标数据），从 Med-MAT 中找出与 Target 共享部分 MAT-Triplet 的 Related 数据
例如：Target 为 "X-ray + Lung + Cancer"，Related 包括 "CT + Lung + ?" 和 "X-ray + Brain + Cancer"
在 Related 数据上训练，在 Target 上测试，与 Baseline 对比
关键：若 CG 存在，仅通过组合相关要素训练就能理解未见过的 Target

Step 2: CG 是泛化关键驱动力

扩大实验规模，在多任务训练中人为破坏 CG（移除与 Target 共享 MAT 要素的数据）
观察破坏 CG 后泛化性能的变化，验证 CG 是否是泛化的主要形式

Step 3: CG 的实用性探索

探索 CG 对有限数据场景的支持能力
验证 CG 是否跨越分类和检测任务

基础模型¶

基础模型：LLaVA-v1.5-7B-Vicuna（选择原因：训练过程透明，医学数据使用极少，降低知识泄露风险）
训练配置：5 epochs，8块 A800 GPU，batch size 32，学习率 5e-6
通过 prompt 切换任务，利用 MLLM 的灵活性简化多任务泛化研究

实验关键数据¶

主实验：多任务 vs 单任务训练¶

指标	Baseline（无训练）	单任务训练	多任务训练
子集02	47%	49%	89%
子集13	28%	83%	92%
子集30	49%	89%	94%
子集32	49%	97%	100%

多任务训练在所有 25 个 ID 数据集上均超越单任务训练
OOD 数据集（12个）上，多任务训练也显示出显著的泛化提升（如子集05: 33%→70%，子集17: 33%→61%）

CG 存在性验证¶

在 24 组 CG 实验中，大多数组合成功展示了 CG 效果（标记为 ✓）
典型案例：模型学会"Lung + COVID"和"Brain + Cancer"后，能有效泛化到"Lung + Cancer"（25→27✓）
跨模态 CG 也成立：学会"CT + Cancer"和"X-ray + COVID"后泛化到"CT + COVID"（47→72✓）
少数失败案例表明 CG 并非总能保证成功，但成功率远高于随机基线

CG 破坏实验¶

破坏 CG 后模型泛化性能显著下降，验证了 CG 是多任务训练泛化的关键驱动因素

消融实验¶

CG 在不同 MLLM 架构上均有效（验证了普遍性）
CG 有效支持有限数据场景：在数据稀缺情况下，CG 组合训练仍能提升目标任务性能
CG 跨分类和检测任务均成立，展示了更广泛的泛化潜力

亮点与洞察¶

理论创新：首次将组合泛化（CG）理论引入医学影像 MLLM 分析，提供了理解多任务训练泛化增益的新视角
MAT-Triplet 分解：将医学影像的三个属性正交分解，巧妙构建了 CG 实验的天然环境
数据贡献：Med-MAT 覆盖 106 个数据集、11种模态、14个区域、13种任务，是迄今最大的 CG 研究用医学影像数据集
实验设计精巧：通过"组合训练→观察泛化"和"破坏 CG→观察退化"两个方向交叉验证，逻辑自洽
实用价值：CG 对数据稀缺场景的有效支持意味着可以通过策略性的数据组合来弥补特定医学场景的数据不足

局限性¶

模型规模有限：仅在 7B 级别 LLaVA 上实验，更大规模模型上的 CG 表现未知
MAT-Triplet 假设：将医学影像分解为三个正交维度可能过于简化，实际场景中维度间可能存在复杂交互
QA 格式限制：所有任务转为4选项单选题可能掩盖了细粒度泛化能力的差异
CG 失败案例：部分组合未能展示 CG 效果，但论文缺乏对失败原因的深入分析
临床可用性：数据集主要面向研究，未讨论如何将 CG 洞察应用于实际临床部署

评分¶

⭐⭐⭐⭐ (4/5)

创新性：⭐⭐⭐⭐ CG视角新颖，MAT-Triplet分解精巧
实验充分性：⭐⭐⭐⭐ 53个子集、多组对照实验，验证全面
写作质量：⭐⭐⭐⭐ 逻辑清晰，实验设计层层递进
实用性：⭐⭐⭐ 洞察有价值但临床应用路径不清晰