NeurIPS 2025 医学图像 EHR 合成时序数据生成量化隐私保护多表关系数据库 Transformer

Generating Multi-Table Time Series EHR from Latent Space with Minimal Preprocessing¶

会议: NeurIPS 2025
arXiv: 2507.06996
代码: eunbyeol-cho/RawMed
作者: Eunbyeol Cho, Jiyoun Kim, Minjae Lee, Sungjin Park, Edward Choi (KAIST, FuriosaAI)
领域: 医学图像
关键词: EHR 合成, 时序数据生成, Residual Quantization, 隐私保护, 多表关系数据库, 自回归 Transformer

一句话总结¶

提出 RawMed——首个以最小有损预处理合成多表时序 EHR 原始数据的框架：将事件文本化 → Residual Quantization 压缩至离散潜空间 → 自回归 Transformer 建模时序动态，在保真度、临床效用和隐私保护上全面超越现有基线。

研究背景与动机¶

问题背景¶

电子健康记录（EHR）本质上是多表关系型时序数据库，记录患者入院后的一系列临床事件（实验室检查、处方、输入事件等），包含分类型、数值型和文本型数据。由于涉及敏感隐私信息，EHR 数据受到 HIPAA 等法规严格限制，难以在研究机构间共享，合成 EHR 数据因此成为刚需。

现有方法的两大瓶颈¶

高度依赖特征选择：EMR-M-GAN、EHR-Safe、FLEXGEN-EHR、TIMEDIFF 等方法均需领域专家预先选定少量表和列（最多约 5,373 个特征），若后续研究需要被排除的特征则无法使用合成数据。这意味着合成数据的"可用范围"在生成前就被锁定了。

复杂的有损预处理：数值 binning、术语归一化、时间聚合等操作不可避免地扭曲原始分布。例如，对实验室指标做时间聚合可能掩盖突发异常值，binning 则过度简化细微趋势，降低下游预测模型的可靠性。

规模差距¶

方法	最大特征数	最大时间步	使用全部列	保留原始值
EMR-M-GAN	98	24	✗	✗
EHR-Safe	90	50	✗	✗
FLEXGEN-EHR	5,373	48	✗	✗
TIMEDIFF	15	276	✗	✗
RawMed	333,524	243	✓	✓

RawMed 在特征规模上比最接近的 FLEXGEN-EHR 高出约 62 倍，且首次同时保留所有列与原始数值。

方法详解¶

RawMed 的核心管线分三步：文本化 → 事件级压缩 → 时序建模与采样。

1. 数据表示：文本化序列¶

将 EHR 的每行事件序列化为纯文本字符串。例如，实验室事件被表示为：

"lab item Glucose value 95 uom mg/dL"

这种表示天然支持异构数据类型，无需 binning 或归一化。每个患者 \(p\) 的临床轨迹表示为有序事件序列 \(S^p = [e_1^p, e_2^p, \ldots, e_{n^p}^p]\)，其中 \(e_i^p = (t_i^p, x_i^p)\)，\(t_i^p\) 为入院后的时间戳，\(x_i^p\) 为序列化文本。文本经分词、填充/截断至固定长度 \(L=128\) 后嵌入为 \(\mathbf{x}_i^p \in \mathbb{R}^{L \times F}\)。

2. 事件级压缩：RQ-VAE¶

文本化后序列长度急剧膨胀，直接建模的计算开销不可接受。RawMed 用 Residual Quantization（RQ） 解决这一瓶颈：

编码器（1D CNN）将 \(\mathbf{x}_i^p \in \mathbb{R}^{L \times F}\) 压缩为 \(\hat{\mathbf{z}}_i^p \in \mathbb{R}^{L_z \times F_z}\)
RQ 量化将每个潜向量分解为 \(D\) 层残差量化码：\(\text{RQ}(\hat{\mathbf{z}}; C, D) = (k_1, \ldots, k_D) \in [K]^D\)，其中每层对前一层的残差做最近邻码本查找
解码器从 \(\mathbf{z}_i^p = \sum_{d=1}^D \text{lut}(k_d)\) 重建 \(\hat{\mathbf{x}}_i^p\)

与标准 VQ-VAE 相比，RQ 用多层残差逐步逼近，对独立分布列（如 patientweight）的保真度显著更高——KS 统计量从 VQ 的 0.28 降至 RQ 的 0.09。

压缩效果：MIMIC-IV 上序列长度从 11.2k 压缩至 1.8k（84% 压缩率），eICU 上从 3.1k 到 0.8k（74% 压缩率）。

3. 时序建模：TempoTransformer¶

压缩后的患者轨迹被编排为交错序列：

\[S_{\text{quantized}}^p = [\tau_1^p, k_1^p, \tau_2^p, k_2^p, \ldots, \tau_{n^p}^p, k_{n^p}^p]\]

两个关键设计：

时间 Tokenization：将时间戳按 10 分钟分辨率分解为十进制数字序列（如 720 分钟 → \([7, 2]\)），使用 0–9 的小词表
时间分离（Time Separation）：将时间 token 与事件内容 token 显式交错排列并用不同词表约束，确保模型不会混淆两类信息

自回归 Transformer 以标准 NLL 损失训练：

\[\mathcal{L}_{\text{AR}} = -\sum_{p \in \mathcal{P}} \sum_{i=1}^{|S_{\text{quantized}}^p|} \log P(s_i^p \mid s_1^p, \ldots, s_{i-1}^p)\]

4. 采样与后处理¶

使用 Top-\(k\) 采样生成新患者序列，通过词表掩码保证结构完整性
事件级验证：用 Levenshtein 距离修正拼写错误的列名，去除数值字段的多余字符
患者级验证：丢弃含无效事件的序列，检查时间戳单调性，最后转换为关系表

5. 评估框架（新提出）¶

RawMed 同时提出了首个面向多表时序合成 EHR 的综合评估体系，涵盖：

单表保真度：CDE（列分布）、I-CDE（按 item 细粒度分布）、PCC/I-PCC（列间相关性）、Predictive Similarity（高阶依赖）
多表时序保真度：Time Gap（事件间隔分布的 KS 距离）、Event Count（每患者事件数分布）、Next Event Prediction（LSTM 预测下一事件的 F1）
临床效用：11 个临床预测任务的 AUROC
隐私保护：Membership Inference Attack 准确率

实验关键数据¶

表 1：单表评估结果（MIMIC-IV & eICU，越小越好）¶

模型	CDE (MIMIC)	I-CDE (MIMIC)	PCC (MIMIC)	I-PCC (MIMIC)	ER (MIMIC)	SMAPE (MIMIC)
Real	-	-	-	-	15.35	60.85
SDV	0.11	0.54	0.26	0.26	49.32	103.85
RC-TGAN	0.26	0.54	0.18	0.28	38.21	97.26
ClavaDDPM	0.06	0.22	0.08	0.27	27.91	80.02
RawMed	0.04	0.05	0.04	0.10	19.69	57.31

RawMed 的 I-CDE 仅为 ClavaDDPM 的约 1/4，表明其在 item 级别粒度上保真度远超基线。SMAPE 接近真实数据（57.31 vs 60.85），说明高阶语义一致性极强。

表 2：临床效用与时序保真度（越接近 Real 越好 / 越小越好）¶

模型	AUROC MEDS-TAB (MIMIC)	AUROC GenHPF (MIMIC)	Time Gap (MIMIC)	Event Count (MIMIC)	MIA (MIMIC)
Real	0.90±0.06	0.82±0.09	-	-	-
SDV	0.46±0.13	0.47±0.13	0.76	0.46	0.499
ClavaDDPM	0.68±0.19	0.64±0.17	0.48	0.11	0.500
RawMed	0.87±0.08	0.80±0.09	0.01	0.02	0.498

RawMed 在 11 个临床预测任务上的 AUROC 仅比真实数据低 0.02–0.03，远超第二名 ClavaDDPM（差距 0.16–0.19）。Time Gap 指标为 0.01，比 ClavaDDPM 的 0.48 低了 48 倍，时序保真度优势巨大。MIA 准确率接近 0.5（随机猜测），隐私保护充分。

亮点与洞察¶

"全量保留"范式：RawMed 首次证明可以在保留 EHR 数据库所有列和原始值的条件下进行高质量合成，打破了"必须做特征选择"的惯性思维。333k 特征规模比最先进方法高出两个数量级。
RQ 优于 VQ 的关键洞察：对于像 patientweight 这样与其他列弱相关的数值列，VQ 的单层码本无法充分编码，导致重建分布严重失真。RQ 的多层残差机制恰好弥补这一缺陷，这一发现对所有采用 VQ 的医疗数据生成任务都有参考价值。
时间分离是最关键组件：消融实验显示，去掉 Time Separation 后 Time Gap 从 0.01 暴涨至 0.51、Event Count 从 0.02 涨至 0.40，性能退化最为严重。这说明显式分离时间和内容信息是时序建模成功的核心。
评估框架的价值：提出的 I-CDE/I-PCC 指标巧妙地解决了 EHR 中"同一列存储不同临床项目数据"的评估难题，填补了合成 EHR 评估的空白。
压缩与质量可以兼得：84% 的序列长度压缩率不仅没有降低质量，反而因为降低了自回归建模的难度而提升了生成保真度（RawMed 全面优于无压缩的 RealTabFormer）。

局限性¶

表数量有限：当前仅验证了 3 个主要时序表（实验室、处方、输入事件），能否扩展到数十个表尚未验证，表间依赖建模的复杂度可能显著增加。
无条件生成：目前仅支持无条件合成，不能按指定条件（如特定性别、年龄段、疾病类型）生成患者数据，限制了其在临床试验模拟等场景的实用性。
静态属性未整合：性别、出生年份等静态特征未纳入生成管线，合成数据缺乏人口统计学的一致性。
后处理依赖：生成数据仍存在列名拼写错误、数值字段异常字符等问题，需要基于规则的后处理修正，说明潜空间生成的结构保真仍有改进空间。
长时间窗口的可扩展性：虽然 24 小时窗口实验表明大部分指标稳定，但 Event Count 指标有所退化，更长的住院记录可能需要更高级的压缩或分层采样策略。

评分¶

维度	分数 (1-10)	说明
新颖性	8	首个多表时序原始 EHR 合成框架，规模提升两个数量级
技术深度	7	RQ-VAE + 自回归 Transformer 的组合扎实但非颠覆性创新
实验充分度	9	两个公开数据集、11 个下游任务、全面消融、多维度评估
实用价值	8	直接解决医疗 AI 数据稀缺痛点，代码开源
写作质量	8	结构清晰，问题定义精确，评估框架的贡献独立成章
总分	8.0	问题定义准确、解法完整、实验有说服力的优秀工作