Joint Adaptation of Uni-modal Foundation Models for Multi-modal Alzheimer's Disease Diagnosis¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=gPTjQxC74G
代码: 待确认
领域: 医学影像 / 多模态阿尔茨海默病诊断
关键词: 阿尔茨海默病诊断, 多模态融合, 基础模型适配, Q-former, 锚定模态交互, LoRA
一句话总结¶
本文提出"模态锚定交互(modality-anchored interaction)"框架,把 sMRI、fMRI、临床文本、基因四个领域各自的单模态基础模型组合起来做阿尔茨海默病诊断——轮流让一个模态当锚点并冻结其大部分参数,用 modality-aware Q-former 把其余辅助模态的特征选择性投影进锚点的特征空间,从而在不破坏各预训练表征完整性的前提下实现深度跨模态交互。
研究背景与动机¶
- 领域现状:阿尔茨海默病(AD)是复杂的神经退行性疾病,NIA-AA 指南强调诊断需整合多模态生物标志物——sMRI 反映脑萎缩、fMRI 捕捉神经活动、临床记录反映整体状态、基因数据揭示遗传风险。同时神经生物学/医学领域已涌现一批强大的单模态基础模型(BrainMVP、Brain-JEPA、NT Transformer、临床 LLM),各自在本领域表现优异。
- 现有痛点:传统多模态 AD 方法大多从头训练,在医学这种标注稀缺场景下数据效率低、鲁棒性差;而要把多个单模态基础模型组合起来,又面临一个核心难题——每个基础模型经大规模预训练后,其特征空间是异构且高度结构化的,朴素地对齐或合并这些特征空间会破坏其完整性、削弱原有表征能力。
- 核心矛盾:既要让基础模型之间充分交互以利用互补信息,又要保护每个模型预训练特征空间的完整性——这两个目标天然冲突。
- 本文目标:构建一个统一框架,在保留各基础模型特征空间的同时实现有效的多模态交互,覆盖 sMRI / fMRI / 临床 / 基因四种最常见 AD 模态。
- 核心 idea:[非对称锚定] 放弃让所有模态平等交互,转而轮流指定一个模态及其基础模型为"锚点"并冻结其主体,把其余模态视为辅助信息源,用专门的 Q-former 把辅助特征投影进锚点空间后送入锚点模型联合处理,最后聚合所有锚点轮次的预测。
方法详解¶
整体框架¶
整个流程分两阶段:阶段一(单模态适配)用各自模态的有限标注数据,给每个基础模型挂一个线性分类头、用交叉熵单独微调,得到 modality-specific 的 AD 诊断模型;阶段二(模态锚定交互)依次把每个单模态模型指定为锚点,用 modality-aware Q-former 把其余三个辅助模态的特征对齐到锚点空间,与锚点输入拼接后送回锚点模型,用 LoRA 轻量微调;最终聚合四个锚点轮次的输出得到诊断结果。
flowchart TD
A[阶段1: 单模态适配] --> A1[BrainMVP / sMRI]
A --> A2[Brain-JEPA / fMRI]
A --> A3[LLaMA-2 / 临床文本]
A --> A4[NT Transformer / 基因]
A1 & A2 & A3 & A4 --> B[阶段2: 模态锚定交互]
B --> C{轮流指定锚点模态 m̂}
C --> D[辅助模态特征经各自模型抽取]
D --> E[Modality-aware Q-former<br/>投影到锚点特征空间 Ha]
E --> F[Concat 锚点输入 + Ha<br/>送入锚点模型 LoRA 微调]
F --> G[聚合四个锚点轮次预测 → AD 诊断]
关键设计¶
1. 模态锚定交互(Modality-Anchored Interaction):用"主从非对称"代替"平等融合"来护住特征空间。 这是全文的核心机制。给定锚点模态 \(\hat{m}\),其辅助模态集合为 \(M'=\{m\in M\,|\,m\neq\hat{m}\}\)。先用阶段一的单模态模型抽取各辅助模态特征,经 Q-former 对齐得到聚合的辅助表征 \(H_a=\text{Qformer}(\text{Concat}(\{F_m(X_m)\}_{m\in M'}))\),再把它与锚点输入拼接送回锚点模型 \(F_{\hat{m}}\),用交叉熵 \(L_{\hat{m}}=\frac{1}{N_{\hat{m}}}\sum_i L_{CE}(F_{\hat{m}}(\text{Concat}(X_{\hat{m}}, H_a)))\) 微调。关键在于:辅助特征是被"喂进"锚点模型而非与之对称合并,锚点模型在自己熟悉的特征空间里处理外来信息,因此预训练表征不被冲垮;四个模态依次充当锚点、最后聚合,等于让每个基础模型都既贡献自身强项又吸收互补信息。
2. 输入级交互 + LoRA 冻结主体:把"动外部融合层"改成"动锚点模型内部、但只动一点点"。 与 M4Survive、Late Fusion 这类在输出端做对称晚融合的方法不同,本文把辅助 token 直接送进锚点 transformer 的输入端参与自注意力,实现更深的 inter-modal 交互。为了"既交互又不破坏",锚点模型只用 LoRA 更新极小子集参数,主体冻结以保住预训练特征空间。表 5 的对照印证了这一点:Feature Concatenation / Linear Fusion / Self-Attention 这些输出级融合在 NC vs AD 上 ACC 约 0.83–0.90,而本文输入级锚定交互达到 0.945,说明"在哪一层交互"对异构基础模型的整合至关重要。
3. Modality-aware Q-former:用"单模态查询 + 跨模态查询"双路把辅助特征精炼进锚点空间。 Q-former 同时建模两类信息。单模态路为每个辅助模态 \(m\) 设一组可学习查询 \(X_{uq}\),先把辅助特征线性投到锚点维度 \(Z_m=\text{Linear}(F_m(X_m))\),再用交叉注意力 \(\hat{X}_m=\text{CrossAttn}(Q=X_{uq}, K=Z_m, V=Z_m)\) 抽取与锚点相关的信息;跨模态路另设一组跨模态查询 \(X_{cq}\),对所有单模态输出 \(Z_a=\text{Concat}(\{\hat{X}_m\})\) 做交叉注意力 \(\hat{X}_c=\text{CrossAttn}(Q=X_{cq},K=Z_a,V=Z_a)\),捕捉辅助模态之间的关联。最终输出 \(H_a=\text{Concat}(\{\hat{X}_m\}_{m\in M'}, \hat{X}_c)\in\mathbb{R}^{4N_q\times C}\)。区别于 BLIP-2/InstructBLIP 这类只把图像投进 LLM 文本空间的 Q-former,本文的 Q-former 要能投影进四个模态中任意一个被指定为锚点的空间,因此设计得更通用。
实验关键数据¶
主实验表格(ADNI,模态完整设置,ACC)¶
| 模态 | 方法 | NC vs MCI | NC vs AD | sMCI vs pMCI |
|---|---|---|---|---|
| C | LLaMA-2(最强单模态) | 0.793 | 0.814 | 0.721 |
| F | Brain-JEPA | 0.777 | 0.807 | 0.714 |
| S | BrainMVP | 0.724 | 0.730 | 0.703 |
| G | NT-Human | 0.694 | 0.751 | 0.652 |
| C+G+F+S | M4Survive | 0.827 | 0.804 | 0.746 |
| C+G+F+S | Late Fusion | 0.818 | 0.798 | 0.714 |
| C+G+F+S | Ours | 0.871 | 0.846 | 0.763 |
模态不完整设置(更贴近真实临床)下提升更显著:NC vs MCI 达 0.979、NC vs AD 达 0.945、sMCI vs pMCI 达 0.846,全面超越所有单/多模态基线。
消融实验表格¶
| 消融维度 | 设置 | 结论 |
|---|---|---|
| 融合方式(表 5, NC vs AD ACC) | Feature Concat 0.833 / Linear 0.899 / Self-Attn 0.901 → Ours 0.945 | 输入级锚定交互显著优于输出级融合 |
| 基础模型选择(表 6) | 换 SamMed3D / DNA-Bert2 / BrainLM / MedGemma | 均比当前选型(BrainMVP/NT/Brain-JEPA/LLaMA-2)低 0.4%–3.3%,但框架对换模型鲁棒 |
| 查询数量 | 0(退化为晚融合)→ 16 | ACC 随查询数上升,16 个查询时跨模态交互已充分 |
关键发现¶
- 跨疾病泛化:在 PPMI 上训练做帕金森病(PD)诊断,NC vs PD 达 ACC 0.967 / AUC 0.969,超过所有基线,说明框架不局限于 AD。
- 跨数据集 OOD:在 ADNI 训练、迁移到缺基因模态的 OASIS-3 测 NC vs AD,仍取得 SOTA AUC 0.699。
- 互补性:从单模态→双模态→四模态性能递增,临床记录与 fMRI 带来最大增益;用全部四模态最优,印证跨模态信息互补且本文能让基础模型充分交互。
亮点与洞察¶
- "锚定"是一个优雅的工程化答案:把"既要交互又要护住特征空间"这个矛盾,转化为非对称的主从结构——让外来特征进入主模型的"主场"被动适应,而非强行对齐两个异构空间,思路干净且可解释。
- 首个把基因 + 神经影像 + 临床三大类 AD 数据全覆盖的基础模型组合框架,模态广度超越以往只用子集的工作。
- 输入级 vs 输出级交互的对照很有说服力:表 5 明确量化了"交互发生在哪一层"的影响,对多基础模型融合的后续研究有方法论价值。
- 强泛化证据链完整:模态完整/不完整、跨疾病(PD)、跨数据集(OASIS)三个维度都给了 SOTA,说明保留预训练特征空间确实带来了鲁棒性。
局限与展望¶
- 轮流锚定 + 四个模型推理的开销:每个样本要把四个基础模型(含 LLaMA2-13B)依次当锚点跑一遍并聚合,计算/显存成本不低,论文未充分讨论效率与可部署性。
- 样本规模偏小:模态完整设置下 pMCI 仅 44 例(ADNI)等,进展预测任务样本稀少,外部验证集(OASIS AD 42 例)规模也有限,统计稳健性存疑。
- 聚合策略简单:最终预测是对四个锚点轮次输出的聚合,论文未深入探讨加权/不确定性感知的聚合是否能进一步提升。
- 缺失模态的处理细节:模态不完整设置下如何具体处理缺失辅助模态(是否补零/跳过)值得更清晰的说明。
相关工作与启发¶
- 多模态 AD 融合:早期靠共享表征、GCN、3D 网络组合神经影像;后续引入临床/认知评分。本文是首个同时纳入基因、神经影像、临床三大类的框架。
- 基础模型适配:M4Survive 用对称晚融合整合医学基础模型,但深层跨模态交互受限;本文针对"如何让异构单模态基础模型有效交互"给出输入级锚定方案。
- 多模态 Q-former:BLIP-2、MiniGPT-4、InstructBLIP 等用 query transformer 把非文本模态投进 LLM 文本空间。本文的 Q-former 不局限于文本锚点,可投影进任意被指定为锚点的模态空间,更通用。
- 启发:当下游需要组合多个各自强大的预训练专家模型时,"非对称锚定 + 轻量适配(LoRA)+ 选择性投影(Q-former)"是一条值得迁移到其他多模态/多专家场景的范式,而不必强行训练一个统一的对称融合空间。
评分¶
- 新颖性: ⭐⭐⭐⭐ 模态锚定交互(非对称主从 + 通用 Q-former)是对"交互 vs 护住特征空间"矛盾的清晰新解法,首次全覆盖三大类 AD 数据。
- 实验充分度: ⭐⭐⭐⭐ 两种模态设置 + 跨疾病 + 跨数据集 + 多组消融,证据链完整;扣分在部分任务样本量偏小、效率分析缺位。
- 写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法的逻辑链清晰,公式与图示到位,易读。
- 价值: ⭐⭐⭐⭐ 为"如何组合多个单模态医学基础模型"提供了可迁移的范式,对临床多模态诊断有实际意义。