ICML2025 医学图像动态治疗策略(DTR) 多模态融合不确定性量化保形推断(Conformal Prediction) 脓毒症 EHR

SAFER: A Calibrated Risk-Aware Multimodal Recommendation Model for Dynamic Treatment Regimes¶

会议: ICML2025
arXiv: 2506.06649
代码: yishanssss/SAFER
领域: 医学图像
关键词: 动态治疗策略(DTR), 多模态融合, 不确定性量化, 保形推断(Conformal Prediction), 脓毒症, EHR

一句话总结¶

提出 SAFER 框架，融合结构化 EHR 与临床笔记的多模态信息，通过 KL 散度度量标签不确定性并结合保形推断控制 FDR，为高风险动态治疗推荐提供统计安全保障。

研究背景与动机¶

动态治疗策略 (DTR) 旨在根据患者不断变化的临床状态做出实时、个性化的治疗决策，是精准医疗的核心问题
现有方法存在三个关键瓶颈：
1. 标签不确定性：死亡患者的治疗标签可能不代表最优决策（可能是治疗正确但不足以挽救，也可能是治疗错误导致不良结局），现有方法普遍忽视这种标签模糊性
2. 模态单一：大多数 DTR 方法仅使用结构化 EHR 数据（生命体征、实验室检查），忽略了临床笔记中蕴含的医生判断和患者病程信息
3. 缺乏安全保障：现有方法没有对推荐质量提供理论性的错误率控制，在高风险临床场景中难以获得医生信任

方法详解¶

SAFER 由三个核心模块组成：多模态表示学习 → 风险感知微调 → 保形选择与 FDR 控制。

1. 多模态表示学习¶

输入：每位患者 \(i\) 的时序序列 \(\mathbf{r}_i = \{(\mathbf{e}_i^1, \mathbf{o}_i^1), \ldots, (\mathbf{e}_i^T, \mathbf{o}_i^T)\}\)，其中 \(\mathbf{e}\) 为结构化 EHR，\(\mathbf{o}\) 为临床笔记。

编码器：临床笔记通过 BioClinicalBERT 编码；结构化数据通过归一化 + one-hot 编码
模态内时序建模：对每种模态分别施加带因果掩码的自注意力机制：

\[\mathbf{S}_i^A = \text{Softmax}\left(\frac{(\mathbf{X}_i^A \mathbf{W}_A^Q)(\mathbf{X}_i^A \mathbf{W}_A^K)^\top + \mathbf{M}}{\sqrt{d_k}}\right)\mathbf{X}_i^A \mathbf{W}_A^V + \text{PE}\]

跨模态融合：设计双向交叉注意力机制，让 EHR 与临床笔记相互学习上下文信息，最终拼接静态人口学特征获得统一患者嵌入 \(\mathbf{h}_i \in \mathbb{R}^{3d_k}\)
分类头：前馈网络将嵌入映射至药物类别分布，使用交叉熵损失训练

2. 风险感知微调¶

核心思想：存活患者的标签可靠，死亡患者的标签不确定。

不确定性估计模块 \(f_\phi\)：在第一阶段模型收敛后，引入一个仅在存活患者上训练的 MLP 模块，学习更纯净的预测分布
不确定性度量：通过两个模块输出分布的 KL 散度衡量标签不确定性：

\[\kappa_i = D_{\text{KL}}(p_\theta(\mathbf{h}_i) \| p_\phi(\mathbf{h}_i)) = \sum_{l=1}^{L} p_\theta(\hat{y}_i = l | \mathbf{h}_i) \ln \frac{p_\theta(\hat{y}_i = l | \mathbf{h}_i)}{p_\phi(\hat{y}_i = l | \mathbf{h}_i)}\]

理论保障 (Theorem 4.1)：在 \(f_\phi\) 满足 Lipschitz 连续条件下，死亡患者的期望 \(\kappa\) 严格高于存活患者
风险感知损失：

\[\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}(1 - \hat{\kappa}_i)\sum_{l=1}^{L} y_i \log p_\theta(\hat{y}_i = l | h_i) + \gamma \kappa_i^2\]

其中 \((1-\hat{\kappa}_i)\) 降低不确定样本的权重，\(\gamma\kappa_i^2\) 正则项惩罚高风险样本的过度自信预测。

3. 保形选择与 FDR 控制¶

对校准集和测试集计算不确定性分数 \(\hat{\kappa}\)，构造保形 p 值
通过 Benjamini-Hochberg (BH) 程序控制误发现率 (FDR)：仅推荐 p 值排名前 \(k\) 的治疗方案
理论保障 (Theorem 5.1)：在 i.i.d. 和有界不确定性条件下，推荐集合的 FDR \(\leq \alpha\)（用户指定阈值）

实验关键数据¶

在两个公开脓毒症数据集（MIMIC-III / MIMIC-IV）上评估，治疗空间为 \(5 \times 5\) 的液体-血管升压素组合。

方法	MI-AUC (III)	MA-AUC (III)	HR@3 (III)	MRR@3 (III)	↓Mortality (III)
LSTM	0.9122	0.7934	0.7481	0.8015	0.0915
RETAIN	0.9257	0.8219	0.8324	0.8153	0.1994
ACIL	0.8219	0.7012	0.8013	0.8313	0.3212
SAFER	0.9407	0.8672	0.8517	0.9017	0.3891

方法	MI-AUC (IV)	MA-AUC (IV)	HR@3 (IV)	MRR@3 (IV)	↓Mortality (IV)
LSTM	0.9213	0.8121	0.7551	0.8066	0.1051
RETAIN	0.9279	0.7851	0.8017	0.8052	0.1863
ACIL	0.8854	0.7135	0.8319	0.8441	0.3782
SAFER	0.9356	0.8755	0.8713	0.8698	0.4562

SAFER 在所有推荐指标上全面超越 SOTA，反事实死亡率降低最多（↓Mortality 越高表示模型推荐的治疗越能降低死亡率）
在 MIMIC-IV 上 MA-AUC 提升了约 5.8%（vs RETAIN），HR@3 提升了约 4.7%

亮点与洞察¶

标签不确定性的系统性建模：首次在 DTR 中显式建模死亡患者标签的不确定性，通过 KL 散度量化并融入损失函数，思路优雅且有理论支撑
保形推断 + FDR 控制：将保形预测引入治疗推荐，提供可量化的安全边界，这在高风险医学场景中极具实用价值
真正的多模态融合：首次将临床笔记与结构化 EHR 同时用于 DTR，双向交叉注意力设计让两种模态互相增强
端到端框架：多模态学习、不确定性量化与统计推断三位一体，设计完整

局限与展望¶

仅验证脓毒症：虽然框架是通用的，但实验只在脓毒症场景（MIMIC 数据集）上测试，对其他疾病/治疗场景的泛化性未知
临床笔记质量假设：依赖 BioClinicalBERT 编码临床笔记，对笔记缺失或质量差的场景鲁棒性有待验证
治疗空间离散化：将液体和血管升压素剂量离散为 \(5 \times 5\) 的空间，可能丢失连续剂量的精细信息
KL 散度的局限：不确定性度量依赖两个模块输出分布的差异，当两个模块都出错时可能产生虚假的"低不确定性"
保形推断的 i.i.d. 假设：实际临床数据往往存在分布漂移，i.i.d. 假设在部署中可能不完全满足

评分¶

新颖性: ⭐⭐⭐⭐ — 标签不确定性建模 + 保形推断的组合在 DTR 领域首创
实验充分度: ⭐⭐⭐⭐ — 两个大规模公开数据集、多个baseline、消融实验完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，理论推导严谨
价值: ⭐⭐⭐⭐ — 为高风险治疗推荐提供安全保障的思路有重要临床价值