Diffusion Transformers for Imputation: Statistical Efficiency and Uncertainty Quantification¶

会议: NeurIPS 2025
arXiv: 2510.02216
代码: 有
领域: 时间序列 / 生成模型理论
关键词: 扩散模型, Transformer, 时间序列插补, 不确定性量化, 统计学习理论

一句话总结¶

本文从统计学习角度分析了条件扩散Transformer（DiT）在时间序列插补任务中的样本复杂度和不确定性量化性能，并提出混合掩码训练策略提升插补效果。

研究背景与动机¶

时间序列数据在金融、医疗、交通、气象等领域无处不在，但常因传感器故障、数据传输错误等原因存在大量缺失值。缺失值会严重影响下游任务性能，因此准确的插补至关重要。

传统统计方法（均值插补、插值、卡尔曼滤波、ARIMA等）依赖线性和平稳性等强假设，难以处理复杂非线性数据。近年来，基于扩散模型的生成式插补方法（如CSDI）展现出优越的经验性能，但仍存在两个关键问题：

扩散模型在不同数据集上表现差异大，性能不稳定
插补质量受缺失模式（missing pattern）影响显著

本文的核心问题：扩散模型能多好地捕捉缺失值的条件分布？缺失模式如何影响插补性能？

方法详解¶

整体框架¶

本文以高斯过程（GP）数据为理论分析对象，研究DiT在插补任务中的统计效率。核心思路是将插补建模为条件分布估计问题：给定观测序列 $x_{\text{obs}}$，估计缺失值的条件分布 $P(x_{\text{miss}} | x_{\text{obs}})$。

数据模型：考虑 $d$ 维高斯过程，序列长度 $H$，联合分布为 $\mathcal{N}(\mu, \Gamma \otimes \Lambda)$，其中 $\Gamma$ 表示时间相关性，$\Lambda$ 表示空间依赖性。

关键设计¶

1. 条件得分函数的Transformer逼近理论（定理1）

作者提出了一种新的DiT构造性证明，利用算法展开（algorithm unrolling）技术，证明Transformer能有效逼近高斯过程的条件得分函数。关键步骤包括： - 利用正交基分解条件得分函数 - 通过注意力机制实现位置嵌入和时间依赖性捕获 - MLP层实现非线性变换

2. 统计样本复杂度（定理2）

建立了DiT学习条件分布的样本复杂度上界： $$\tilde{O}\left(\frac{\sqrt{Hd^2\kappa^5}}{\sqrt{n}}\right)$$ 其中 $n$ 是训练样本量，$H$ 是序列长度，$d$ 是维度，$\kappa$ 是由缺失模式决定的条件协方差矩阵的条件数。关键发现： - 收敛速率为 $n^{-1/2}$，对序列长度 $H$ 仅有温和的多项式依赖 - 条件数 $\kappa$ 直接刻画缺失模式对插补难度的影响

3. 不确定性量化（推论1）

利用训练好的DiT生成大量缺失值样本，构建置信区间（CR）。证明覆盖概率以 $\tilde{O}(n^{-1/2})$ 速率收敛到期望水平。

损失函数 / 训练策略¶

混合掩码训练策略（Mixed-Masking Training Strategy）

受理论分析启发，提出混合不同缺失模式的训练策略： - S1: 100% 随机缺失（16×1） - S2: 50% 随机 + 50% 弱分组（8×2） - S3: 33% 随机 + 33% 弱分组 + 33% 中分组（4×4） - S4: 25% 随机 + 25% 弱分组 + 25% 中分组 + 25% 强分组（1×16）

核心思想：训练时引入从易到难的多种缺失模式，缩小训练与测试分布之间的分布偏移。

实验关键数据¶

主实验¶

高斯过程数据上的置信区间覆盖率（表1-2）

序列长度 H	16	32	64	96	128
CR 覆盖率(%)	92.67	88.63	82.14	80.25	77.81

不同训练策略在不同缺失模式下的CR覆盖率（%）：

策略	P1 (κ=415)	P2 (κ=30)	P3 (κ=9.5)	P4 (κ=3.0)
S1 (纯随机)	34.58	58.46	72.42	80.25
S4 (混合)	57.27	79.00	74.38	82.74

潜在高斯过程上的MSE比较（表3）

模型	P1-S4	P2-S4	P3-S4	P4-S4
DiT	0.67	0.62	0.58	0.53
CSDI	0.68	0.63	0.61	0.58
GPVAE	5.28	4.84	4.59	4.45

真实数据集MAE结果（表6，附录）

模型	ETT_m1 10%	ETT_m1 50%	BeijingAir 10%	BeijingAir 50%
DiT	0.1269	0.1543	0.1753	0.2057
CSDI	0.1448	0.1650	0.1780	0.2141
GP-VAE	0.2786	0.4666	0.4152	0.5265

消融实验¶

混合掩码策略的消融： - 仅使用单一模式（8×2、4×4、1×16）的性能均不如混合策略 - 分布偏移系数分析：S4 的分布偏移系数比 S1 低约 47.93 倍，提供强理论支持

关键发现¶

条件数是关键指标：条件数 $\kappa$ 越低（缺失点间隔越远），插补越容易，所需样本越少
混合掩码训练一致性优势：混合策略在所有缺失模式上均优于纯随机掩码训练
DiT一致优于CSDI：在MSE和CR覆盖率上均领先，说明Transformer架构更适合此任务
理论预测与实验吻合：序列长度增加导致覆盖率下降，低条件数模式更易估计

亮点与洞察¶

首次为扩散Transformer插补提供端到端统计保证：不仅分析分布估计，还涵盖不确定性量化
理论驱动方法设计：混合掩码策略直接由分布偏移理论结果启发，非经验调参
算法展开构造证明：创新性地用算法展开技术构造Transformer逼近条件得分函数
置信区间构造自然：利用生成模型的采样能力直接构建置信区间，方法简洁有效

局限与展望¶

理论分析局限于高斯过程数据，对重尾分布（如金融数据）的适用性待研究
最优混合掩码比例是实例相关的，目前没有自适应选择方法
实验主要在合成数据和小规模真实数据上验证，大规模真实场景的验证不足
仅考虑了块缺失（block-missing）设定，随机散点缺失的分析未涉及

评分¶

新颖性: ★★★★☆ — 理论贡献扎实，混合掩码策略虽简单但有理论支撑
技术深度: ★★★★★ — 涉及深度统计学习理论，技术含量高
实验充分性: ★★★☆☆ — 合成数据实验充分，真实数据实验偏少
写作质量: ★★★★☆ — 论文结构清晰，理论和实验平衡良好
实用性: ★★★☆☆ — 偏理论，混合掩码策略有一定实用价值