ICLR 2026 图像生成乘性噪声扩散模型非高斯隐空间重尾分布极端事件滑动得分匹配物理启发

Multiplicative Diffusion Models: Beyond Gaussian Latents¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=F6w8LcJJFA
代码: 待确认
领域: 生成模型 / 扩散模型
关键词: 乘性噪声, 扩散模型, 非高斯隐空间, 重尾分布, 极端事件, 滑动得分匹配, 物理启发

一句话总结¶

本文提出乘性得分扩散模型（MSGM），用斜对称乘性噪声取代经典扩散的加性高斯噪声，让前向过程在保持数据范数分布不变的前提下收敛到一个非高斯、且天然贴近数据的隐分布，从而在重尾、各向异性数据上更准确地生成罕见极端事件。

研究背景与动机¶

领域现状：扩散模型 / 得分生成模型（SGM）已是图像生成 SOTA，其前向过程是加性高斯噪声驱动的 Ornstein-Uhlenbeck（OU）过程，隐空间永远收敛到标准高斯 $\mathcal{N}(0, I_d)$，与数据分布无关。
现有痛点：标准高斯先验与真实数据分布常常相去甚远。对于重尾（heavy-tailed）/ 各向异性数据，高斯隐变量的范数服从 $\chi^2$ 分布，无论数据如何都不会有重尾——而 Lafon et al. (2023) 指出：隐变量没有重尾，生成样本几乎不可能复现重尾。更严重的是，对重尾数据，数据到 SGM 隐分布的 KL 散度是无穷大。
核心矛盾：扩散模型用一个固定、与数据无关的高斯隐空间，去拟合千变万化、常含极端事件的真实分布；隐分布与数据分布越远，前向/后向积分越费力，罕见大值事件（rare critical events）越难生成，且低数据量下尤为糟糕。
本文目标：构造一个隐分布自适应数据、保留数据关键信息（范数分布）的扩散模型，让隐空间与数据分布尽可能接近，从而高效且准确地生成极端事件。
核心 idea：[物理守恒结构] 借鉴流体力学中的传输噪声（transport noise），用斜对称乘性噪声驱动前向 SDE——这种噪声只在原点周围做随机旋转，严格保持每个数据点的范数不变（能量守恒），于是隐分布的范数分布 = 数据范数分布，自动继承数据的重尾特性。

方法详解¶

整体框架¶

MSGM 把经典扩散的「加性噪声 + 高斯隐空间」整体替换为「斜对称乘性噪声 + 数据感知的非高斯隐空间」。前向 SDE 让数据点在以其范数为半径的球面上随机旋转，方向最终收敛到球面均匀分布，而范数恒定不变；隐变量于是分解为「数据范数（一维可估）× 球面均匀方向」的乘积结构。反向过程用滑动得分匹配（SSM）训练一个神经网络估计得分，并被证明等价于最大化 ELBO。

flowchart LR
    A["数据 x₀<br/>(重尾/各向异性)"] -->|"前向 SDE<br/>乘性斜对称噪声<br/>dx = G(x)∘dB"| B["隐变量 x_T<br/>范数=数据范数<br/>方向~球面均匀"]
    B -->|"采样: 范数R(eCDF)<br/>×方向(高斯归一化)"| C["非高斯隐样本"]
    C -->|"反向 SDE/ODE<br/>神经网络估计<br/>G(x)ᵀ∇log p"| D["生成样本<br/>(保留重尾/极端事件)"]
    E["SSM 损失 ≡ ELBO"] -.->|训练得分网络| D

关键设计¶

1. 斜对称乘性前向 SDE：用旋转代替平移，让范数成为守恒量。 前向过程写成乘性 Stratonovich SDE $\mathrm{d}\overrightarrow{x}_s = G(\overrightarrow{x}_s) \circ \mathrm{d}\overrightarrow{B}_s$，其中线性算子 $G$ 由三阶张量 $[G^k_{i,j}]$ 表示，并强加两条假设：斜对称性（A1） 要求每个 $G^k$ 满足 $G^k_{i,j} = -G^k_{j,i}$，秩条件（A2） 要求 $\mathrm{rank}(G(x)) = d-1$。斜对称直接导致噪声增量 $\mathrm{d}Z_s$ 与 $\overrightarrow{x}_s$ 正交，于是 $\mathrm{d}\|\overrightarrow{x}_s\|^2 = 2\overrightarrow{x}_s \cdot \mathrm{d}\overrightarrow{x}_s = 0$，即范数严格守恒 $\|\overrightarrow{x}_s\| = \|\overrightarrow{x}_0\|$——这正是流体力学中不可压缩流导致的能量守恒在生成模型里的翻版。秩条件 A2 保证噪声充分铺满与 $x$ 正交的整个切空间 $\langle x\rangle^\perp$，使方向充分混合、隐分布可解析。

2. 数据感知的非高斯隐分布：范数原样保留，方向收敛到球面均匀。 把隐变量做球面分解 $\overrightarrow{x}_s = \|\overrightarrow{x}_s\| \cdot \overrightarrow{x}^n_s$。由于范数恒定，整个噪声过程只在半径 $\|\overrightarrow{x}_0\|$ 的球面上演化；论文证明方向 $\overrightarrow{x}^n_s$ 服从一个球面上的 Fokker-Planck 方程，并指数级收敛到 $\mathcal{S}^{d-1}$ 上的均匀分布。因此稳态隐密度是乘积结构 $p_\infty(x) = p_{|\cdot|}(\|x\|) \cdot \|x\|^{1-d} / |\mathcal{S}^{d-1}|$，范数与方向渐近独立。这个隐分布当且仅当数据平方范数恰服从 $\chi^2_d$ 时才退化为高斯——一般情况下它是非高斯的，且数据有重尾 ⟺ 隐分布有重尾。论文进一步证明 MSGM 隐分布到数据的 KL 散度始终不大于 SGM，对重尾数据 SGM 为无穷大而 MSGM 有限，意味着只需很少时间步即可完成前/后向积分。

3. 一维范数采样 + 球面方向采样：把高维难题降为一维问题。 隐分布的乘积结构让采样异常简洁：方向部分先采高斯 $\overrightarrow{x}^N \sim \mathcal{N}(0, I_d)$ 再归一化即得球面均匀方向；范数部分则把高维分布坍缩成一维的对数范数分布 $F_{\log|\cdot|}$，用经验 CDF（eCDF）拟合，再通过 $r = F^{-1}_{\log|\cdot|}(F_{2}^{(d)}(r^2))$ 式的逆变换采样。这样高维采样彻底避开维度灾难，只需解一维分布问题，且范数与方向独立保证了正确性。

4. 滑动得分匹配 ≡ ELBO：为乘性噪声提供训练理论基础。 乘性情形下条件得分 $\nabla \log p_s(\overrightarrow{x}_s \mid \overrightarrow{x}_0)$ 没有解析式，故论文直接用神经网络 $a_\theta(\overrightarrow{x}_t, T{-}t)$ 建模 $G(\overrightarrow{x}_t)^\top \nabla \log p_{T-t}$，并用滑动得分匹配（SSM） 训练，损失为 $\mathcal{L}_{\mathrm{SSM}}(\theta) = \mathbb{E}\big[\tfrac{1}{2}\|a_\theta\|^2 + (v \cdot \nabla)(G^\top a_\theta) \cdot v\big]$，$v$ 取 Rademacher 分布。Theorem 3.4.1 证明：即使在乘性噪声下，最小化该 SSM 损失也精确等价于最大化 ELBO（隐式得分匹配 ISM），把本文框架与变分原理对接，并推广了 Huang et al. (2021) 的结果。反向过程同时给出 SDE 与概率流 ODE 两种形式。

实验关键数据¶

论文以最大平均差异（MMD） 为核心指标，对比 MSGM 与经典 SGM 基线（同样用 SSM 训练以公平比较）。

主实验¶

任务	维度 / 设置	现象
相关 Cauchy 分布	$d=4$，对相关化的 Cauchy 向量 $x_0 = A x_{Ca}$（幂律尾 $\propto	x
实测涡量场	$d=16$，1024 个 PIV 实测涡量样本（Re=3900 圆柱尾流）	SGM 把样本过度集中在分布中心、低估罕见大涡量事件；MSGM 隐分布更贴近数据（疑似 Laplace 尾），尾部刻画明显更好
高维图像	$d=1024$，稀疏张量 $G$	给出首批 MSGM 高维生成图像，验证可扩展性（属初步探索，未纳入主理论框架）

关键发现¶

极端事件 / 尾部行为：在两个重尾任务上，MSGM 对极端事件与尾部分布的刻画都显著优于 SGM，尤其在低数据量情形（Figure 4b：MMD 随训练样本数变化，MSGM 全程领先）。
收敛稳定性（Figure 4a）：Cauchy 任务上随有效 ADAM 迭代增加，MSGM 的 MMD 持续下降，而 SGM 训练发散——印证「隐分布越贴近数据，优化越容易」的理论预期。
理论一致性：实验观测到 MSGM 隐分布到数据的 KL 更小、隐分布继承数据重尾，与 Section E.5/E.6 的理论结论吻合。

亮点与洞察¶

把物理守恒律变成生成模型的归纳偏置：斜对称（不可压缩）⟹ 范数守恒（能量守恒）⟹ 隐分布保留数据范数，这条从流体力学借来的链条非常优雅，是对「扩散一定要把数据洗成各向同性高斯」这一默认设定的根本性挑战。
隐空间数据感知：标准扩散的隐分布与数据无关，MSGM 让隐分布自动继承数据的范数分布（含重尾），从而缩短数据与隐空间的「距离」，理论上 KL 永远 ≤ SGM，对重尾数据更是从无穷大变有限。
维度灾难的巧妙规避：乘积结构把高维采样拆成「一维范数（eCDF）× 球面均匀方向（高斯归一化）」，难点全部压缩到一维。
完整理论闭环：从 Fokker-Planck 方程、指数收敛、稳态分布解析式，到反向 SDE/ODE、SSM≡ELBO，给出了一套自洽的数学框架，而非纯经验 trick。

局限与展望¶

无解析得分，训练受限：乘性情形下前向 SDE 无大秩张量的解析解、有限时间得分也无解析式，导致不能用更稳定的去噪得分匹配（DSM），只能用 ISM/SSM——后者稳定性较差、需数值积分前向过程，训练更慢或迭代更少。
稠密张量内存爆炸：实验用的稠密三阶张量 $G$ 有 $d^3$ 个系数，对 $d=O(10^5)$ 的真实图像/湍流问题内存与计算不可承受；高维只能靠稀疏张量（Section K），但稀疏张量不完全满足主理论框架（A1/A2），高维结果偏初步。
展望：作者寄望于对称黎曼流形上的生成模型、随机微分几何、随机矩阵理论 / 自由概率（forward SDE 半群可表为酉布朗矩阵，高维趋于自由乘性布朗矩阵）为 d-球面上的扩散提供更高效的采样与得分评估；并正在开发物理启发的稀疏张量 $G$（对应含传输噪声的 SPDE 空间离散），期望物理归纳偏置进一步改善低数据量下的推断与学习。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从根上重构扩散模型的噪声机制（加性→乘性斜对称），用物理守恒律导出数据感知的非高斯隐空间，是真正开辟新方向的工作。
实验充分度: ⭐⭐⭐ 理论扎实但实验偏 toy（$d=4/16$ 的 Cauchy 与涡量，$d=1024$ 仅初步），缺图像基准（FID/真实数据集）上与主流扩散的正面对比，仅用 MMD 一个指标。
写作质量: ⭐⭐⭐⭐ 数学叙述严谨、贡献清晰、图 1 对比 SGM/MSGM 直观；但理论密度高、大量结论压进附录，对非理论背景读者门槛较高。
价值: ⭐⭐⭐⭐ 为重尾 / 极端事件生成、物理启发生成模型提供了有原则的新框架，长期潜力大；短期受限于稠密张量的可扩展性与得分估计稳定性。

任务	维度 / 设置	现象
相关 Cauchy 分布	\(d=4\)，对相关化的 Cauchy 向量 \(x_0 = A x_{Ca}\)（幂律尾 $\propto	x
实测涡量场	\(d=16\)，1024 个 PIV 实测涡量样本（Re=3900 圆柱尾流）	SGM 把样本过度集中在分布中心、低估罕见大涡量事件；MSGM 隐分布更贴近数据（疑似 Laplace 尾），尾部刻画明显更好
高维图像	\(d=1024\)，稀疏张量 \(G\)	给出首批 MSGM 高维生成图像，验证可扩展性（属初步探索，未纳入主理论框架）