Incomplete Data, Complete Dynamics: A Diffusion Approach¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=NYvvkBlSX2
代码: 待确认
领域: 科学计算 / 物理动力学 / 扩散模型
关键词: 扩散模型, 缺失数据, 物理动力学, 数据补全, 条件生成, 收敛性保证
一句话总结¶
提出一个只用不完整观测就能训练的条件扩散框架:通过按观测分布结构设计的「上下文-查询」划分策略,让扩散模型在从未见过完整样本的情况下,逼近真实完整数据的条件期望,并给出渐近收敛的理论保证,在流体、气象等稀疏物理观测上显著优于现有补全方法。
研究背景与动机¶
领域现状:从观测数据学习物理动力学(天气预报、流体、生物系统)是机器学习与科学计算的核心问题。相比像素稠密的自然图像,物理测量天生稀疏——传感器只在离散位置采样、卫星受云遮挡、实验受仪器限制。这种不完整性不是"采集得更好就能解决"的临时问题,而是观测物理系统的内在属性。
现有痛点:
- 观测模式被过度简化:多数缺失数据生成方法假设像素级 i.i.d. 的随机缺失,每个空间位置等概率被观测。但真实观测有强空间结构——气象站覆盖局部连续区块、卫星沿轨道扫成条带、水下传感阵列受声传播范围限制。现有方法对所有缺失模式都套同一套训练策略,无法利用具体掩码分布的特性。
- 缺乏理论根基:现有处理缺失数据的生成方法多是启发式设计,没有收敛保证或学习动力学的理解;少数有理论动机的方法又因需多次完整重训练、复杂重要性加权而计算代价高昂,只能用于低维玩具问题。
核心矛盾:训练集里根本没有完整样本(只有 \(\{(x^{(i)}_\text{obs}, M^{(i)})\}\)),那扩散模型凭什么能学会预测那些"从未被观测过"的维度?这是从不完整数据学完整分布的根本张力。
本文目标:构建一个理论上有收敛保证、又能高效处理高维物理动力学的扩散框架,回答三个问题:仅用不完整数据训练的扩散模型能否恢复完整数据分布?观测模式如何影响训练效率?在什么条件下未观测区域的重建有保证?
核心 idea:[分层掩码] 把每个不完整样本 \(x_\text{obs}\) 当作"局部完整",再从中切出上下文掩码 \(M_\text{ctx}\)(喂给模型)与查询掩码 \(M_\text{qry}\)(算损失),并让 \(M_\text{ctx}\) 的采样模仿真实观测掩码 \(p_\text{mask}(M)\) 的结构,从而保证每个维度(包括原始缺失维度)都有正的被查询概率,配合集成采样桥接训练与推理的分布差异。
方法详解¶
整体框架¶
方法把"从不完整数据训练补全模型"拆成三块:(1) 不完整数据上的去噪 data-matching——构造一个只用上下文掩码作输入、用查询掩码算损失的训练目标,并证明其最优解就是条件期望;(2) 策略性上下文-查询划分——按真实观测掩码的结构(像素级/区块级)来采样上下文掩码,保证所有维度都有非零查询概率;(3) 集成采样重建——推理时用完整观测、对多个随机上下文掩码做集成平均,消除方差、收敛到真值条件期望。
flowchart TD
A["不完整样本 (x_obs, M)<br/>无完整 ground truth"] --> B["加噪: x_obs,t = M⊙(α_t·x_obs + σ_t·ε)"]
B --> C["按 p_mask(M) 结构采样<br/>上下文掩码 M_ctx ⊆ M<br/>查询掩码 M_qry ⊆ M"]
C --> D["网络 x_θ(t, M_ctx⊙x_obs,t, M_ctx)<br/>仅见上下文, 预测完整 x_0"]
D --> E["损失 ‖M_qry⊙(x_θ − x_obs)‖²<br/>仅在查询维度反传"]
E --> F["最优解 = E[x_0 | M_ctx⊙x_obs,t, M_ctx]"]
F --> G["推理: 完整观测 x_obs + K 个随机 M_ctx<br/>集成平均 → 重建完整 x_0"]
关键设计¶
1. 不完整数据上的去噪 data-matching 损失:把"缺失"变成"主动隐藏"。 关键转念是把已观测部分 \(x_\text{obs}\) 视为该样本范围内的"完整数据",再人为地从中再切出上下文与查询。给定时刻 \(t\) 的带噪样本 \(x_{\text{obs},t}=M\odot(\alpha_t x_\text{obs}+\sigma_t\epsilon)\),网络只能看到上下文掩码下的带噪观测 \(M_\text{ctx}\odot x_{\text{obs},t}\) 与掩码 \(M_\text{ctx}\) 本身,去预测完整干净数据 \(x_0\),损失只在查询维度上计算:
这种"主动隐藏一部分已观测值再要求模型还原"的设计,让模型被迫学习从局部上下文推断其他位置的能力,这正是补全所需的归纳能力。
2. 最优解定理:揭示"哪些维度能学会、哪些学不会"。 Theorem 1 证明上述损失的最优解为
即只有当维度 \(i\) 有正的被查询概率时,模型才会在该维度学到有意义的条件期望;否则它从不收到梯度,输出任意。进一步,梯度幅度与参数更新频率都正比于查询概率 \(p_i=P((M_\text{qry})_i=1\mid M_\text{ctx})\)。这条定理把"能不能学会重建某维度"直接归结为"该维度有没有正查询概率",为下一步的划分策略提供了精确的设计依据——必须保证每个上下文之外的维度(包括原始缺失维度)都有机会被选为查询点。
3. 按观测分布结构采样上下文掩码:让划分匹配真实缺失模式。 Principle 1 要求对所有未观测维度满足非零查询概率且近似均匀。论文把查询概率按全概率公式分解为 \(P((M_\text{qry})_i=1\mid M_\text{ctx})=\sum_M P((M_\text{qry})_i=1\mid M_\text{ctx},M)\cdot P(M\mid M_\text{ctx})\),关键洞察是:上下文掩码必须采得"足够模糊",使得有多个可能的观测掩码 \(M\) 都包含它。以 9 宫格随机缺 2 块为例——若按像素均匀采上下文(Fig.1 上),给定 \(M_\text{ctx}\) 只对应唯一一个 \(M\),原始缺失维度永远查询概率为 0、学不到;若按区块结构采上下文(Fig.1 下,通常含 4 个完整区块),同一个 \(M_\text{ctx}\) 对应多个可能的 \(M\),从而保证所有维度查询概率为正。实现上就是让 \(M_\text{ctx}\) 的采样模仿 \(p_\text{mask}(M)\):像素级观测就独立采像素,区块级观测就采完整区块。这把抽象的理论条件落成了一条"上下文采样要复刻观测掩码结构"的可操作准则。
4. 集成采样桥接训练-推理分布差异。 训练时模型学的是随机上下文掩码下的条件期望 \(\mathbb{E}[x_0\mid M_\text{ctx}\odot x_{\text{obs},t}, M_\text{ctx}]\),而推理想要的是基于完整观测的 \(\mathbb{E}[x_0\mid x_{\text{obs},t}, M]\)。论文用单步采样(取极小噪声 \(t=\delta\approx0\) 使 \(M\odot x_\delta\approx x_\text{obs}\))配合对 \(K\) 个随机上下文掩码的集成平均来逼近:
Theorem 2 证明集成平均能消去方差项(误差以 \(1/K\) 速率收敛),最终残差只剩"上下文与完整观测之间的信息差"加系统性模型偏置。论文还给出训练时的两个权衡:上下文点太少则信息差大、收敛慢(Theorem 2);上下文点太多则查询概率 \(p_i\) 小、缺失维度更新太稀疏(式 5),故中等上下文比例最优,对需要多样性的场景则提供多步采样变体。
实验关键数据¶
数据集:合成 PDE(Shallow Water、Advection、Navier-Stokes)+ 真实气候数据 ERA5,观测率从 80% 低至 1%。关键设定是训练集永远没有完整 ground truth,区别于人为遮挡完整数据的传统补全任务。
主实验表格(像素级掩码,数值越低越好)¶
| Method | Navier-Stokes 80% (×10⁻³) | NS 60% | NS 20% | ERA5 20% (×10⁻²) | ERA5 10% | ERA5 1% |
|---|---|---|---|---|---|---|
| Temporal Consistency | 1.341 | 2.709 | 5.709 | 0.967 | 1.179 | 9.735 |
| Fast Marching | 0.486 | 1.220 | 3.737 | 0.710 | 0.978 | 3.053 |
| Navier-Stokes inpaint | 0.263 | 0.656 | 2.989 | 0.600 | 0.942 | 3.074 |
| MissDiff | 0.251 | 0.611 | 3.077 | 0.416 | 0.676 | 1.653 |
| AmbientDiff | 0.238 | 0.538 | 2.043 | 0.256 | 0.414 | 1.234 |
| Ours | 0.223 | 0.507 | 1.931 | 0.250 | 0.408 | 1.229 |
在绝大多数稀疏度下取得最优,越稀疏(如 ERA5 1%)相对传统方法优势越明显。
消融实验表格(区块级掩码,验证划分策略必要性)¶
| Method | Shallow Water 8/9 | SW 5/9 | Advection 8/9 | Adv 5/9 | NS 8/9 |
|---|---|---|---|---|---|
| MissDiff | 0.0285 | 0.1166 | 0.1202 | 0.1979 | 1.4357 |
| AmbientDiff | 0.0217 | 0.0925 | 0.1077 | 0.1524 | 1.4954 |
| Ours 像素级划分(错) | 0.0215 | 0.0989 | 0.1171 | 0.1894 | 1.4925 |
| Ours 区块级划分(对) | 0.0203 | 0.0865 | 0.1065 | 0.1407 | 0.7592 |
同一模型,仅把上下文-查询划分策略从"错误的像素级"换成"匹配观测的区块级",Navier-Stokes 8/9 误差从 1.49 骤降到 0.76(近半),直接验证了理论:划分必须匹配观测结构。
关键发现¶
- 越稀疏越占优:在 1%~20% 极稀疏区间,相对启发式与现有扩散方法的领先幅度最大。
- 划分匹配是关键开关:区块观测下用像素级划分几乎退化到 baseline 水平,用区块级划分才发挥威力。
- 跨分布泛化优雅退化:训练/测试观测率不一致时(Tab.3),通过保持有效输入比例的自适应上下文采样,性能随分布偏移平滑下降而非崩溃。
亮点与洞察¶
- 把"无法学习的维度"形式化:Theorem 1 用"查询概率是否为正"精确刻画了哪些维度可学、哪些不可学,这是从不完整数据学完整分布的根本机制,少见地把直觉做成了可验证的判据。
- 划分策略与观测分布同构:核心招式不是新网络,而是"让上下文采样复刻真实缺失结构",从而制造出"一个上下文对应多个可能观测掩码"的多义性——这正是让原始缺失维度获得正查询概率的关键。
- 理论-方法-实验闭环:信息差/更新频率两个权衡预测了"中等上下文比例最优",集成平均消方差的 \(1/K\) 收敛也都有定理支撑,并被消融实验印证。
局限与展望¶
- 依赖已知掩码分布先验:方法需要对 \(p_\text{mask}(M)\) 有合理估计(传感器布局、测量协议),当观测过程未知或会漂移时如何鲁棒尚未充分探讨。
- 单步采样的适用前提:单步重建依赖"后验高度集中、解唯一"的假设,对强不确定/多模态后验需退回多步采样,而多步会累积误差。
- 集成成本:推理需对 \(K\) 个上下文掩码前向,\(K\) 与精度的权衡在高维大规模场景下的开销值得关注。
- 评测域偏物理 PDE/气象:泛化到更不规则、非网格、多变量耦合更强的真实科学观测仍待验证。
相关工作与启发¶
- 缺失数据扩散:MissDiff、AmbientDiff 等直接在不完整数据上训扩散,但用统一掩码策略且缺收敛保证;本文把它们统一到 data-matching 范式下做公平对比并补上理论。
- 逆问题/补全:传统 Fast Marching、Navier-Stokes inpainting 等无学习先验,稀疏时退化严重。
- 启发:对任何"训练数据本身就缺失/带结构噪声"的生成任务,与其追求更大模型,不如先想清楚"自监督划分能否覆盖所有需要预测的维度"——查询概率为零的维度无论怎么训都学不会,这条判据可迁移到掩码建模、稀疏重建、传感器融合等场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把"上下文采样复刻观测结构"与可学习性判据(查询概率>0)结合,从不完整数据学完整分布的视角清晰且有理论新意。
- 实验充分度: ⭐⭐⭐⭐ 合成 PDE + 真实 ERA5、像素/区块两类掩码、80%~1% 稀疏度、跨分布泛化与多项消融,覆盖较全。
- 写作质量: ⭐⭐⭐⭐ 问题动机—理论—划分准则—采样—实验逻辑闭环,定理与设计一一对应,图示直观。
- 价值: ⭐⭐⭐⭐ 面向科学测量稀疏这一真实痛点,给出有理论保证且可扩展到高维的补全框架,对地球科学/流体等领域有实用潜力。