SAFER: A Calibrated Risk-Aware Multimodal Recommendation Model for Dynamic Treatment Regimes¶
会议: ICML2025
arXiv: 2506.06649
代码: yishanssss/SAFER
领域: 医学图像
关键词: 动态治疗策略(DTR), 多模态融合, 不确定性量化, 保形推断(Conformal Prediction), 脓毒症, EHR
一句话总结¶
提出 SAFER 框架,融合结构化 EHR 与临床笔记的多模态信息,通过 KL 散度度量标签不确定性并结合保形推断控制 FDR,为高风险动态治疗推荐提供统计安全保障。
研究背景与动机¶
- 动态治疗策略 (DTR) 旨在根据患者不断变化的临床状态做出实时、个性化的治疗决策,是精准医疗的核心问题
- 现有方法存在三个关键瓶颈:
- 标签不确定性:死亡患者的治疗标签可能不代表最优决策(可能是治疗正确但不足以挽救,也可能是治疗错误导致不良结局),现有方法普遍忽视这种标签模糊性
- 模态单一:大多数 DTR 方法仅使用结构化 EHR 数据(生命体征、实验室检查),忽略了临床笔记中蕴含的医生判断和患者病程信息
- 缺乏安全保障:现有方法没有对推荐质量提供理论性的错误率控制,在高风险临床场景中难以获得医生信任
方法详解¶
SAFER 由三个核心模块组成:多模态表示学习 → 风险感知微调 → 保形选择与 FDR 控制。
1. 多模态表示学习¶
输入:每位患者 \(i\) 的时序序列 \(\mathbf{r}_i = \{(\mathbf{e}_i^1, \mathbf{o}_i^1), \ldots, (\mathbf{e}_i^T, \mathbf{o}_i^T)\}\),其中 \(\mathbf{e}\) 为结构化 EHR,\(\mathbf{o}\) 为临床笔记。
- 编码器:临床笔记通过 BioClinicalBERT 编码;结构化数据通过归一化 + one-hot 编码
- 模态内时序建模:对每种模态分别施加带因果掩码的自注意力机制:
\[\mathbf{S}_i^A = \text{Softmax}\left(\frac{(\mathbf{X}_i^A \mathbf{W}_A^Q)(\mathbf{X}_i^A \mathbf{W}_A^K)^\top + \mathbf{M}}{\sqrt{d_k}}\right)\mathbf{X}_i^A \mathbf{W}_A^V + \text{PE}\]
- 跨模态融合:设计双向交叉注意力机制,让 EHR 与临床笔记相互学习上下文信息,最终拼接静态人口学特征获得统一患者嵌入 \(\mathbf{h}_i \in \mathbb{R}^{3d_k}\)
- 分类头:前馈网络将嵌入映射至药物类别分布,使用交叉熵损失训练
2. 风险感知微调¶
核心思想:存活患者的标签可靠,死亡患者的标签不确定。
- 不确定性估计模块 \(f_\phi\):在第一阶段模型收敛后,引入一个仅在存活患者上训练的 MLP 模块,学习更纯净的预测分布
- 不确定性度量:通过两个模块输出分布的 KL 散度衡量标签不确定性:
\[\kappa_i = D_{\text{KL}}(p_\theta(\mathbf{h}_i) \| p_\phi(\mathbf{h}_i)) = \sum_{l=1}^{L} p_\theta(\hat{y}_i = l | \mathbf{h}_i) \ln \frac{p_\theta(\hat{y}_i = l | \mathbf{h}_i)}{p_\phi(\hat{y}_i = l | \mathbf{h}_i)}\]
- 理论保障 (Theorem 4.1):在 \(f_\phi\) 满足 Lipschitz 连续条件下,死亡患者的期望 \(\kappa\) 严格高于存活患者
- 风险感知损失:
\[\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}(1 - \hat{\kappa}_i)\sum_{l=1}^{L} y_i \log p_\theta(\hat{y}_i = l | h_i) + \gamma \kappa_i^2\]
其中 \((1-\hat{\kappa}_i)\) 降低不确定样本的权重,\(\gamma\kappa_i^2\) 正则项惩罚高风险样本的过度自信预测。
3. 保形选择与 FDR 控制¶
- 对校准集和测试集计算不确定性分数 \(\hat{\kappa}\),构造保形 p 值
- 通过 Benjamini-Hochberg (BH) 程序控制误发现率 (FDR):仅推荐 p 值排名前 \(k\) 的治疗方案
- 理论保障 (Theorem 5.1):在 i.i.d. 和有界不确定性条件下,推荐集合的 FDR \(\leq \alpha\)(用户指定阈值)
实验关键数据¶
在两个公开脓毒症数据集(MIMIC-III / MIMIC-IV)上评估,治疗空间为 \(5 \times 5\) 的液体-血管升压素组合。
| 方法 | MI-AUC (III) | MA-AUC (III) | HR@3 (III) | MRR@3 (III) | ↓Mortality (III) |
|---|---|---|---|---|---|
| LSTM | 0.9122 | 0.7934 | 0.7481 | 0.8015 | 0.0915 |
| RETAIN | 0.9257 | 0.8219 | 0.8324 | 0.8153 | 0.1994 |
| ACIL | 0.8219 | 0.7012 | 0.8013 | 0.8313 | 0.3212 |
| SAFER | 0.9407 | 0.8672 | 0.8517 | 0.9017 | 0.3891 |
| 方法 | MI-AUC (IV) | MA-AUC (IV) | HR@3 (IV) | MRR@3 (IV) | ↓Mortality (IV) |
|---|---|---|---|---|---|
| LSTM | 0.9213 | 0.8121 | 0.7551 | 0.8066 | 0.1051 |
| RETAIN | 0.9279 | 0.7851 | 0.8017 | 0.8052 | 0.1863 |
| ACIL | 0.8854 | 0.7135 | 0.8319 | 0.8441 | 0.3782 |
| SAFER | 0.9356 | 0.8755 | 0.8713 | 0.8698 | 0.4562 |
- SAFER 在所有推荐指标上全面超越 SOTA,反事实死亡率降低最多(↓Mortality 越高表示模型推荐的治疗越能降低死亡率)
- 在 MIMIC-IV 上 MA-AUC 提升了约 5.8%(vs RETAIN),HR@3 提升了约 4.7%
亮点与洞察¶
- 标签不确定性的系统性建模:首次在 DTR 中显式建模死亡患者标签的不确定性,通过 KL 散度量化并融入损失函数,思路优雅且有理论支撑
- 保形推断 + FDR 控制:将保形预测引入治疗推荐,提供可量化的安全边界,这在高风险医学场景中极具实用价值
- 真正的多模态融合:首次将临床笔记与结构化 EHR 同时用于 DTR,双向交叉注意力设计让两种模态互相增强
- 端到端框架:多模态学习、不确定性量化与统计推断三位一体,设计完整
局限与展望¶
- 仅验证脓毒症:虽然框架是通用的,但实验只在脓毒症场景(MIMIC 数据集)上测试,对其他疾病/治疗场景的泛化性未知
- 临床笔记质量假设:依赖 BioClinicalBERT 编码临床笔记,对笔记缺失或质量差的场景鲁棒性有待验证
- 治疗空间离散化:将液体和血管升压素剂量离散为 \(5 \times 5\) 的空间,可能丢失连续剂量的精细信息
- KL 散度的局限:不确定性度量依赖两个模块输出分布的差异,当两个模块都出错时可能产生虚假的"低不确定性"
- 保形推断的 i.i.d. 假设:实际临床数据往往存在分布漂移,i.i.d. 假设在部署中可能不完全满足
评分¶
- 新颖性: ⭐⭐⭐⭐ — 标签不确定性建模 + 保形推断的组合在 DTR 领域首创
- 实验充分度: ⭐⭐⭐⭐ — 两个大规模公开数据集、多个baseline、消融实验完整
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,理论推导严谨
- 价值: ⭐⭐⭐⭐ — 为高风险治疗推荐提供安全保障的思路有重要临床价值