Joint Adaptation of Uni-modal Foundation Models for Multi-modal Alzheimer's Disease Diagnosis¶

ICLR 2026 医学图像阿尔茨海默病诊断多模态融合基础模型适配 Q-former 锚定模态交互 LoRA

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=gPTjQxC74G
代码: 待确认
领域: 医学影像 / 多模态阿尔茨海默病诊断
关键词: 阿尔茨海默病诊断, 多模态融合, 基础模型适配, Q-former, 锚定模态交互, LoRA

一句话总结¶

本文提出"模态锚定交互（modality-anchored interaction）"框架，把 sMRI、fMRI、临床文本、基因四个领域各自的单模态基础模型组合起来做阿尔茨海默病诊断——轮流让一个模态当锚点并冻结其大部分参数，用 modality-aware Q-former 把其余辅助模态的特征选择性投影进锚点的特征空间，从而在不破坏各预训练表征完整性的前提下实现深度跨模态交互。

研究背景与动机¶

领域现状：阿尔茨海默病（AD）是复杂的神经退行性疾病，NIA-AA 指南强调诊断需整合多模态生物标志物——sMRI 反映脑萎缩、fMRI 捕捉神经活动、临床记录反映整体状态、基因数据揭示遗传风险。同时神经生物学/医学领域已涌现一批强大的单模态基础模型（BrainMVP、Brain-JEPA、NT Transformer、临床 LLM），各自在本领域表现优异。
现有痛点：传统多模态 AD 方法大多从头训练，在医学这种标注稀缺场景下数据效率低、鲁棒性差；而要把多个单模态基础模型组合起来，又面临一个核心难题——每个基础模型经大规模预训练后，其特征空间是异构且高度结构化的，朴素地对齐或合并这些特征空间会破坏其完整性、削弱原有表征能力。
核心矛盾：既要让基础模型之间充分交互以利用互补信息，又要保护每个模型预训练特征空间的完整性——这两个目标天然冲突。
本文目标：构建一个统一框架，在保留各基础模型特征空间的同时实现有效的多模态交互，覆盖 sMRI / fMRI / 临床 / 基因四种最常见 AD 模态。
核心 idea：[非对称锚定] 放弃让所有模态平等交互，转而轮流指定一个模态及其基础模型为"锚点"并冻结其主体，把其余模态视为辅助信息源，用专门的 Q-former 把辅助特征投影进锚点空间后送入锚点模型联合处理，最后聚合所有锚点轮次的预测。

方法详解¶

整体框架¶

整个流程分两阶段：阶段一（单模态适配）用各自模态的有限标注数据，给每个基础模型挂一个线性分类头、用交叉熵单独微调，得到 modality-specific 的 AD 诊断模型；阶段二（模态锚定交互）依次把每个单模态模型指定为锚点，用 modality-aware Q-former 把其余三个辅助模态的特征对齐到锚点空间，与锚点输入拼接后送回锚点模型，用 LoRA 轻量微调；最终聚合四个锚点轮次的输出得到诊断结果。

flowchart TD
    A[阶段1: 单模态适配] --> A1[BrainMVP / sMRI]
    A --> A2[Brain-JEPA / fMRI]
    A --> A3[LLaMA-2 / 临床文本]
    A --> A4[NT Transformer / 基因]
    A1 & A2 & A3 & A4 --> B[阶段2: 模态锚定交互]
    B --> C{轮流指定锚点模态 m̂}
    C --> D[辅助模态特征经各自模型抽取]
    D --> E[Modality-aware Q-former<br/>投影到锚点特征空间 Ha]
    E --> F[Concat 锚点输入 + Ha<br/>送入锚点模型 LoRA 微调]
    F --> G[聚合四个锚点轮次预测 → AD 诊断]

关键设计¶

1. 模态锚定交互（Modality-Anchored Interaction）：用"主从非对称"代替"平等融合"来护住特征空间。 这是全文的核心机制。给定锚点模态 \(\hat{m}\)，其辅助模态集合为 \(M'=\{m\in M\,|\,m\neq\hat{m}\}\)。先用阶段一的单模态模型抽取各辅助模态特征，经 Q-former 对齐得到聚合的辅助表征 \(H_a=\text{Qformer}(\text{Concat}(\{F_m(X_m)\}_{m\in M'}))\)，再把它与锚点输入拼接送回锚点模型 \(F_{\hat{m}}\)，用交叉熵 \(L_{\hat{m}}=\frac{1}{N_{\hat{m}}}\sum_i L_{CE}(F_{\hat{m}}(\text{Concat}(X_{\hat{m}}, H_a)))\) 微调。关键在于：辅助特征是被"喂进"锚点模型而非与之对称合并，锚点模型在自己熟悉的特征空间里处理外来信息，因此预训练表征不被冲垮；四个模态依次充当锚点、最后聚合，等于让每个基础模型都既贡献自身强项又吸收互补信息。

2. 输入级交互 + LoRA 冻结主体：把"动外部融合层"改成"动锚点模型内部、但只动一点点"。 与 M4Survive、Late Fusion 这类在输出端做对称晚融合的方法不同，本文把辅助 token 直接送进锚点 transformer 的输入端参与自注意力，实现更深的 inter-modal 交互。为了"既交互又不破坏"，锚点模型只用 LoRA 更新极小子集参数，主体冻结以保住预训练特征空间。表 5 的对照印证了这一点：Feature Concatenation / Linear Fusion / Self-Attention 这些输出级融合在 NC vs AD 上 ACC 约 0.83–0.90，而本文输入级锚定交互达到 0.945，说明"在哪一层交互"对异构基础模型的整合至关重要。

3. Modality-aware Q-former：用"单模态查询 + 跨模态查询"双路把辅助特征精炼进锚点空间。 Q-former 同时建模两类信息。单模态路为每个辅助模态 \(m\) 设一组可学习查询 \(X_{uq}\)，先把辅助特征线性投到锚点维度 \(Z_m=\text{Linear}(F_m(X_m))\)，再用交叉注意力 \(\hat{X}_m=\text{CrossAttn}(Q=X_{uq}, K=Z_m, V=Z_m)\) 抽取与锚点相关的信息；跨模态路另设一组跨模态查询 \(X_{cq}\)，对所有单模态输出 \(Z_a=\text{Concat}(\{\hat{X}_m\})\) 做交叉注意力 \(\hat{X}_c=\text{CrossAttn}(Q=X_{cq},K=Z_a,V=Z_a)\)，捕捉辅助模态之间的关联。最终输出 \(H_a=\text{Concat}(\{\hat{X}_m\}_{m\in M'}, \hat{X}_c)\in\mathbb{R}^{4N_q\times C}\)。区别于 BLIP-2/InstructBLIP 这类只把图像投进 LLM 文本空间的 Q-former，本文的 Q-former 要能投影进四个模态中任意一个被指定为锚点的空间，因此设计得更通用。

实验关键数据¶

主实验表格（ADNI，模态完整设置，ACC）¶

模态	方法	NC vs MCI	NC vs AD	sMCI vs pMCI
C	LLaMA-2（最强单模态）	0.793	0.814	0.721
F	Brain-JEPA	0.777	0.807	0.714
S	BrainMVP	0.724	0.730	0.703
G	NT-Human	0.694	0.751	0.652
C+G+F+S	M4Survive	0.827	0.804	0.746
C+G+F+S	Late Fusion	0.818	0.798	0.714
C+G+F+S	Ours	0.871	0.846	0.763

模态不完整设置（更贴近真实临床）下提升更显著：NC vs MCI 达 0.979、NC vs AD 达 0.945、sMCI vs pMCI 达 0.846，全面超越所有单/多模态基线。

消融实验表格¶

消融维度	设置	结论
融合方式（表 5, NC vs AD ACC）	Feature Concat 0.833 / Linear 0.899 / Self-Attn 0.901 → Ours 0.945	输入级锚定交互显著优于输出级融合
基础模型选择（表 6）	换 SamMed3D / DNA-Bert2 / BrainLM / MedGemma	均比当前选型（BrainMVP/NT/Brain-JEPA/LLaMA-2）低 0.4%–3.3%，但框架对换模型鲁棒
查询数量	0（退化为晚融合）→ 16	ACC 随查询数上升，16 个查询时跨模态交互已充分

关键发现¶

跨疾病泛化：在 PPMI 上训练做帕金森病（PD）诊断，NC vs PD 达 ACC 0.967 / AUC 0.969，超过所有基线，说明框架不局限于 AD。
跨数据集 OOD：在 ADNI 训练、迁移到缺基因模态的 OASIS-3 测 NC vs AD，仍取得 SOTA AUC 0.699。
互补性：从单模态→双模态→四模态性能递增，临床记录与 fMRI 带来最大增益；用全部四模态最优，印证跨模态信息互补且本文能让基础模型充分交互。

亮点与洞察¶

"锚定"是一个优雅的工程化答案：把"既要交互又要护住特征空间"这个矛盾，转化为非对称的主从结构——让外来特征进入主模型的"主场"被动适应，而非强行对齐两个异构空间，思路干净且可解释。
首个把基因 + 神经影像 + 临床三大类 AD 数据全覆盖的基础模型组合框架，模态广度超越以往只用子集的工作。
输入级 vs 输出级交互的对照很有说服力：表 5 明确量化了"交互发生在哪一层"的影响，对多基础模型融合的后续研究有方法论价值。
强泛化证据链完整：模态完整/不完整、跨疾病（PD）、跨数据集（OASIS）三个维度都给了 SOTA，说明保留预训练特征空间确实带来了鲁棒性。

局限与展望¶

轮流锚定 + 四个模型推理的开销：每个样本要把四个基础模型（含 LLaMA2-13B）依次当锚点跑一遍并聚合，计算/显存成本不低，论文未充分讨论效率与可部署性。
样本规模偏小：模态完整设置下 pMCI 仅 44 例（ADNI）等，进展预测任务样本稀少，外部验证集（OASIS AD 42 例）规模也有限，统计稳健性存疑。
聚合策略简单：最终预测是对四个锚点轮次输出的聚合，论文未深入探讨加权/不确定性感知的聚合是否能进一步提升。
缺失模态的处理细节：模态不完整设置下如何具体处理缺失辅助模态（是否补零/跳过）值得更清晰的说明。

评分¶

新颖性: ⭐⭐⭐⭐ 模态锚定交互（非对称主从 + 通用 Q-former）是对"交互 vs 护住特征空间"矛盾的清晰新解法，首次全覆盖三大类 AD 数据。
实验充分度: ⭐⭐⭐⭐ 两种模态设置 + 跨疾病 + 跨数据集 + 多组消融，证据链完整；扣分在部分任务样本量偏小、效率分析缺位。
写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法的逻辑链清晰，公式与图示到位，易读。
价值: ⭐⭐⭐⭐ 为"如何组合多个单模态医学基础模型"提供了可迁移的范式，对临床多模态诊断有实际意义。