CVPR2025 医学图像 Alzheimer's disease 3D VLM longitudinal MRI structured reasoning DPO normative Z-score

LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments¶

会议: CVPR2025
arXiv: 2603.12071
代码: GitHub
领域: 医学图像
关键词: Alzheimer's disease, 3D VLM, longitudinal MRI, structured reasoning, DPO, normative Z-score

一句话总结¶

LoV3D 提出一套端到端纵向 3D 脑 MRI 视觉-语言模型管线，通过结构化可验证输出设计实现解剖区域评估 + 纵向对比 + 三分类诊断推理，并利用临床加权 Verifier 驱动 DPO 训练（无需人工标注），在 ADNI 上达到 93.7% 三分类准确率且零非相邻诊断错误。

研究背景与动机¶

阿尔茨海默病 (AD) 是痴呆的首要原因，纵向脑 MRI 是追踪其进展的核心手段
现有工具各自为战：分类器只输出标签（丢失解剖细节）、体积分析流水线（如 FreeSurfer）只给数值无推理、视觉-语言模型 (VLM) 可能产生流利但幻觉的结论
临床上神经放射科医生的报告是多层次的：解剖观察 → 临床上下文整合 → 与前次扫描对比 → 综合印象，自动化需要结构化推理而非单一标签
现有 3D 医学 VLM（RadFM、M3D-LaMed）zero-shot 下 JSON 有效率为 0%，无法完成结构化临床报告任务
核心洞察：如果模型输出设计为可验证的结构化 JSON，幻觉就可被代码检测，而同样的结构也能驱动自动化训练

方法详解¶

整体架构¶

3D 视觉编码器 → 可学习投影器 → 大语言模型 (Qwen-2.5-14B + LoRA)

3D 编码器: MONAI ResNet-50 截取 layer3 输出，特征图 1024×16×16×16，池化为 512 个视觉 token
投影器: 两层 MLP (GELU)，将 1024 维映射到 5120 维（匹配 Qwen 嵌入空间）
文本输入: 人口统计、APOE ε4 状态、认知评分 (MMSE, CDR-SB)、以及前次扫描的 FreeSurfer 解剖标签（当前扫描的 FreeSurfer 结果仅作为 Verifier ground truth，模型不可见）

结构化可验证输出¶

模型输出 JSON 对象，包含定性字段（自由文本推理）和可验证字段，遵循「推理在前、诊断在后」的顺序：

C1 区域选择约束: 标记为异常的区域必须出现在推理文本中
C2 区域分类约束: 神经退行不可逆，当前标签不能比前次轻两级以上
C3 纵向进展约束: 变化方向（稳定/进行性萎缩/进行性增大）与阈值交叉标志必须一致

规范性 Z-Score 模型¶

对 AD 特征区域拟合年龄-性别调整的规范模型（仅用训练集 CN 受试者）
Z-score 离散化为三级：正常 (z>−0.5)、轻度萎缩 (−1.5<z≤−0.5)、重度萎缩 (z≤−1.5)
在边界处引入 ±0.25 Z 的软容忍区，避免边界噪声影响 DPO 信号

临床加权 Verifier¶

综合评分函数 \(S_{\text{verifier}} = M(\hat{d}, d^*) \cdot \sum_{c} \lambda_c S_c\)

全局临床乘子 M：非相邻诊断错误 ×2.0、相邻错误 ×1.5
五个分项：解剖 (0.25)、诊断 (0.25)、纵向 (0.20)、推理 (0.15)、摘要 (0.15)
海马体权重 1.2、内嗅皮层权重 1.1（反映 AD 诊断优先级）

四阶段训练¶

Stage 0: 编码器预热（基线扫描上的区域体积回归），然后冻结
Stage 1a: 投影器对齐（冻结 LLM）
Stage 1b: 投影器 + LoRA 联合训练（差分学习率）
Stage 2: Verifier 驱动的 DPO（K=4 候选，温度 0.7，β=0.1）

实验关键数据¶

ADNI 测试集 (479 扫描, 258 受试者)¶

指标	LoV3D	LoV3D (no-grounding)	ResNet-50	RadFM	M3D-LaMed
三分类准确率	93.7%	92.5%	58.9%	17.5%	38.2%
二分类 AD/CN	97.2%	96.4%	87.8%	—	—
区域准确率	82.6%	80.7%	—	41.4%	49.5%
Cohen's κ	0.911	0.891	0.461	—	—
非相邻错误	0	1	—	—	—

阶段消融¶

阶段	准确率	BLEU-4	ROUGE-L	假重度率↓
1a (投影器)	89.1%	.431	.635	6.3%
1b (+LoRA)	93.3%	.354	.558	4.1%
2 (+DPO)	93.7%	.584	.763	2.2%

DPO 使 BLEU-4 提升 65%、ROUGE-L 提升 37%、假重度率下降 46%

跨站点零样本迁移¶

数据集	准确率	特点
MIRIAD	95.4%	100% 痴呆召回率
AIBL (三分类)	82.9%	超过已发表最强基线 6+ pp

亮点¶

结构化可验证输出: 将 VLM 幻觉检测从不可解问题变为代码可检查的约束验证，是一个通用的设计范式
完全自动化的 DPO 训练: 通过 Verifier 自动打分构造偏好对，零人工标注成本，打破了 RLHF 的标注瓶颈
解剖 grounding 的关键作用: 移除 Stage 0 区域回归预训练导致 1 个非相邻错误出现，说明解剖先验对临床安全至关重要
非单调质量轨迹: SFT 提升分类但降低报告质量 (ROUGE-L .635→.558)，DPO 同时恢复并超越两者，揭示了有意义的训练动态
跨站点零样本泛化: 在不同扫描仪/人群/数据集上无需域适应即保持高精度，证明编码器学到了扫描仪无关的解剖表征
所有 479 个测试扫描零 CN↔Dementia 混淆: 临床安全性极高

局限性¶

依赖 FreeSurfer: Ground truth 来自 FreeSurfer 体积分割，其本身在萎缩组织上存在不确定性
仅限 T1 加权 MRI: 未利用其他模态（如 FLAIR、DWI、PET）的互补信息
未区分遗忘型 vs 非遗忘型 MCI: 临床上这一细分对治疗策略有重要影响
轻度萎缩检测仍是瓶颈: 准确率仅 67.1%，对最早且最有临床可操作性的阶段检测进步有限
单 GPU (A100-80GB) 训练: Qwen-2.5-14B + LoRA 的计算需求仍然较高，不利于资源有限的机构复现
AIBL 上仍有 2 个非相邻错误: 零样本迁移时安全性略有下降

评分¶

新颖性: ⭐⭐⭐⭐⭐ (结构化可验证 + 自动 DPO 是非常优雅的闭环设计)
实验充分度: ⭐⭐⭐⭐⭐ (ADNI 三分类 + 消融 + 双外部数据集零样本迁移)
写作质量: ⭐⭐⭐⭐⭐ (逻辑严密, 方法-实验呼应好, 临床动机清晰)
价值: ⭐⭐⭐⭐⭐ (对医学 VLM 的可验证推理范式有广泛启示)