Learning Patient-Specific Disease Dynamics with Latent Flow Matching for Longitudinal Imaging Generation¶

会议: ICLR 2026
arXiv: 2512.09185
代码: 无
领域: 医学影像 / 疾病进展建模
关键词: disease progression, flow matching, patient-specific, longitudinal MRI, ArcRank loss

一句话总结¶

提出 Δ-LFM 框架：用 ArcRank 损失在潜在空间构建患者特异性时间对齐轨迹（角度一致 + 幅度单调递增），将流匹配时间范围从 [0,1] 扩展到 [0,T] 实际时间间隔实现任意时间点预测，在三个阿尔茨海默纵向 MRI 基准上全面超越 8 种基线方法，并提出进展专用指标 Δ-RMAE。

研究背景与动机¶

领域现状：疾病进展建模对早期诊断和个性化治疗至关重要。GAN → 扩散模型的演进带来了更高保真度的纵向医学影像生成，但多数方法仅捕捉群体趋势。

现有痛点：1）多数模型忽略个体异质性——同一疾病不同患者进展速率差异巨大；2）扩散模型的随机去噪过程打断时间连续性；3）自编码器的潜在空间跨患者不对齐、与临床严重度指标不相关；4）传统图像质量指标（PSNR/SSIM）在纵向场景中虚高——同一患者不同时间点天然高相似度，微小的疾病变化被正常解剖淹没。

核心矛盾：纵向影像生成需要同时满足高保真度（图像质量）和高准确度（进展方向正确），现有方法偏重前者忽略后者。

本文目标 构建患者特异性的生成框架，使潜在空间语义有意义+ 任意时间点可预测 + 进展方向正确。

切入角度：疾病进展在潜在空间可建模为速度场——流匹配（Flow Matching）天然学习从源到目标的速度场，与疾病动力学概念完美对应。

核心 idea：ArcRank 约束让每个患者的潜在轨迹"一条线走到底"（方向恒定、幅度递增），Δ-LFM 沿这条线以真实时间步长推进。

方法详解¶

整体框架¶

Δ-LFM 想解决的是这样一件事：给定患者某个时间点的 MRI，按真实的时间间隔（"几年后"）预测出方向正确、个体化的未来扫描。难点在于，自编码器学出的潜在空间跨患者乱成一团、和临床严重度不挂钩，直接在上面做生成既不可控也不可解释。论文把整个流程拆成两阶段：先把潜在空间"理顺"，再在理顺的空间里学动力学。

阶段 1 训练一个 VAE，但额外加上 ArcRank 损失，逼着同一患者不同时间点的潜在表示排成"一条线"——方向恒定、幅度随时间递增，于是潜在空间里"沿着某条轨迹前进"就等价于"疾病在加重"。阶段 2 在这个已经对齐好的潜在空间里训练一个 3D U-Net，用流匹配学习患者特异性的速度场，并把年龄、性别、临床状态等条件信号通过 AdaLN 注入。推理时从当前潜在向量出发、沿速度场积分到目标时间，再解码回图像。最后用进展专用指标 Δ-RMAE 评估生成的"变化量"是否对得上真实变化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    IN["患者纵向 MRI<br/>多时间点扫描"] --> ENC["VAE 编码器<br/>得到潜在向量 z"]
    subgraph S1["ArcRank 损失：把患者轨迹拉直（阶段 1）"]
        direction TB
        ENC --> SVD["SVD 分解 z=UΣVᵀ<br/>U 管方向 / Σ 管幅度"]
        SVD --> ALIGN["角度一致 + 幅度单调递增<br/>对齐好的潜在空间"]
    end
    subgraph S2["Δ-LFM：带真实时间语义的流匹配（阶段 2）"]
        direction TB
        ALIGN --> VF["3D U-Net 速度场 v_θ<br/>条件(年龄/性别/状态) 经 AdaLN 注入"]
        VF --> INT["沿 [0,T] 真实时间积分<br/>按 dt 步推进到目标年数"]
    end
    INT --> DEC["VAE 解码器<br/>生成未来 MRI"]
    DEC --> EVAL["Δ-RMAE 评估<br/>比较真实变化 Δgt 与生成变化 Δgen"]

关键设计¶

1. ArcRank 损失：把患者轨迹在潜在空间里"拉直"

这一步针对的痛点是潜在空间跨患者不对齐、和严重度无关。做法是对潜在向量 \(\mathbf{z}\) 做 SVD 分解 \(U\Sigma V^\top = \text{SVD}(\mathbf{z})\)，让 \(U\) 承担"方向（角度）"、\(\Sigma\) 承担"幅度（严重度）"两个语义。ArcRank 损失同时约束这两者：

\[\mathcal{L}_{\text{ArcRank}} = \lambda_{\text{arc}} \sum_{i<j} |U_i - U_j| + \lambda_{\text{rank}} \sum_{i<j} \max(0, m - (\Sigma_j - \Sigma_i)), \quad t_i < t_j\]

前一项（arc）压低同一患者各时间点之间的角度差，让方向保持一致；后一项（rank）是带 margin \(m\) 的排序铰链，强制时间靠后的扫描幅度更大，于是 \(\Sigma\) 随时间单调递增、天然对应严重度。为防止相邻时间点被排序项推得过开，再加一个 pull 项 \(\mathcal{L}_{\text{Pull}} = |\Sigma_j - \Sigma_i|\) 把它们拉回来。用 SVD 统一处理方向和幅度，比"cosine 管方向 + 绝对值管幅度"那种拆开两套度量的做法更稳定，训练时配合 stop-gradient 进一步稳住梯度。

2. Δ-LFM：让流匹配的时间轴带上真实语义

标准流匹配把时间归一化到 \([0,1]\)，这对疾病进展是个硬伤——"0.5"既可能是半年也可能是五年，实际时间语义被抹掉了。Δ-LFM 把时间范围直接扩展到 \([0,T]\)，其中 \(T = t_j - t_i\) 就是两次扫描相隔的实际年数。目标速度定义为 \(v^*(i,j) = (\mathbf{z}_j - \mathbf{z}_i)/(t_j - t_i)\)，即"单位时间内潜在向量该走多远"。推理时以步长 \(\text{d}t = 0.01\) 沿速度场逐步积分 \(\mathbf{z}_{i+\text{d}t} = \mathbf{z}_i + \text{d}t \cdot v_\theta(\mathbf{z}_i, t_i)\)，积分到任意目标时间即可。这样"预测 3 年后的 MRI"就变成"在速度场上走 3 个时间单位"，任意未来时间点的预测直接可行，也因为是确定性积分而非随机去噪，保住了时间连续性。

3. Δ-RMAE：换一把尺子量"进展方向"而非"图像长得像不像"

PSNR/SSIM 在纵向场景会虚高——同一患者不同时间点本就高度相似，连"原样复制基线图"都能拿高分，疾病引起的微小变化被淹没。Δ-RMAE 把评估对象从绝对图像换成"变化量"：先取残差 \(\Delta = \mathbf{x}_T - \mathbf{x}_0\)，再比较真实变化与生成变化的相对误差

\[\Delta\text{-RMAE} = \frac{|\Delta_{\text{gt}} - \Delta_{\text{gen}}|}{\frac{1}{2}(|\Delta_{\text{gt}}| + |\Delta_{\text{gen}}|)} \in [0, 2]\]

分母用两者绝对变化的均值做归一化，避免被变化幅度本身带偏。指标越低说明模型真正抓住了疾病该往哪个方向变，而不是靠"保持静态"骗分，正好补上常规质量指标的盲区。

损失函数 / 训练策略¶

阶段 1（AE）用重建损失 + ArcRank 联合训练，权重 \(\lambda_{\text{arc}}=0.005\)、\(\lambda_{\text{rank}}=0.01\)，\(m\) 为排序 margin；优化器 AdamW，lr=\(10^{-3}\)，batch=2，训练 300 epochs。阶段 2（FM）的流匹配目标为 \(\mathcal{L}_{\text{LFM}} = \sum_{i<j} |v_\theta(i,j) - v^*(i,j)|^2\)，主干是 3D U-Net，AdamW，lr=\(3 \times 10^{-5}\)，batch=4，训练 200 epochs；年龄/性别/临床状态等条件信号通过 AdaLN 注入。

实验关键数据¶

主实验——影像质量（3 个纵向 MRI 基准，mean±std）¶

方法	ADNI PSNR↑	ADNI SSIM↑	AIBL PSNR↑	OASIS PSNR↑
CardiacAging	27.78±1.49	92.04	28.41	26.23
DiffuseMorph	29.56±1.63	93.57	29.17	28.13
SADM	26.94±2.28	85.15	27.97	26.74
BrLP	28.51±1.77	91.52	28.96	27.98
MambaControl	29.72±1.04	93.60	29.86	28.24
Δ-LFM	30.59±0.89	94.62	30.52	29.01

主实验——进展准确度（Region MAE + Δ-RMAE）¶

方法	ADNI Δ-RMAE↓	AIBL Δ-RMAE↓	OASIS Δ-RMAE↓
DiffuseMorph	0.516	0.482	0.503
BrLP	0.630	0.594	0.622
MambaControl	0.554	0.525	0.561
Δ-LFM	0.436	0.417	0.473

Δ-RMAE 相比 MambaControl 相对误差降低 ~21%/21%/16%。

消融实验（3 数据集均值）¶

配置	PSNR↑	Δ-RMAE↓	说明
LFM Baseline (无条件, [0,1])	27.59	0.552	最差
+ 条件信息	28.46	0.486	条件信号重要
+ [0,T] 时间采样	28.78	0.472	时间语义化有效
+ Arc Loss only	29.52	0.457	方向约束最重要
+ Rank Loss only	28.36	0.474	单独排序效果弱
+ ArcRank + [0,T] (完整)	30.04	0.442	组件协同

关键发现¶

ArcRank 潜在空间的 t-SNE 可视化：(1) 同一患者的扫描聚在一起；(2) 诊断状态（CN/MCI/AD）自然分群——虽未用诊断标签训练
长期预测性能随时间衰减但仍合理：1-5 年 PSNR 31-32dB, 10 年 ~28.6dB, 13 年 ~27dB
ArcRank 引入 SVD 计算 overhead ~40% 训练时间增加，但使用 full_matrices=False 后从 0.055s→0.009s（6x 加速）

亮点与洞察¶

"疾病 = 速度场"的建模视角：不是生成未来快照，而是学习变化过程的连续动力学——流匹配的速度场概念与疾病进展天然匹配
ArcRank 的对偶设计：SVD 统一了方向（patient identity）和幅度（disease severity）两个本质不同的轴——简洁优雅
Δ-RMAE 填补评估盲区：常规指标在纵向场景失效（"复制基线"也能得高分），Δ-RMAE 迫使模型真正捕捉变化而非保持静态
诊断状态的无监督涌现：ArcRank 仅约束时间顺序和方向一致性，却自然学出了 CN→MCI→AD 的严重度梯度——好的归纳偏置的力量

局限与展望¶

仅在阿尔茨海默病上验证——脑肿瘤等快速进展/治疗干预的疾病需要不同建模假设
线性轨迹假设（潜在空间中直线进展）可能无法捕捉突发恶化或稳定期的非线性模式
扫描间隔不均匀问题仅通过条件信号部分缓解，未显式建模进展速率变化
数据集异质性（多扫描仪/协议差异）仅依赖预处理缓解，未使用协调技术
AE 容量受 GPU 内存限制（48GB A6000），更大 crop 或更深网络可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ 流匹配用于疾病进展 + ArcRank 潜在对齐 + Δ-RMAE 评估指标，三重创新
实验充分度: ⭐⭐⭐⭐ ADNI/AIBL/OASIS 三基准 + 8 种对比方法 + 详细消融 + 长期预测分析
写作质量: ⭐⭐⭐⭐ 动机清晰、公式推导简洁、可视化有说服力
价值: ⭐⭐⭐⭐⭐ 对医学影像生成和疾病进展建模有重要贡献，Δ-RMAE 可能成为领域标准指标