Quantifying Error Propagation and Model Collapse in Diffusion Models¶

会议: ICML 2026
arXiv: 2602.16601
代码: 无
领域: 扩散模型 / 生成模型理论
关键词: 扩散模型, 模型坍塌, 递归训练, score matching, 误差累积

一句话总结¶

本文在 score-based 扩散模型上对"用合成数据递归训练导致 model collapse"这一现象给出第一套配对的上下界：单代散度 \(\chi^2(\hat p^{i+1}\|q_i)\asymp \varepsilon_{\star,i}^2\)，多代累积散度 \(D_N\) 是过去各代 score 误差能量按 \((1-\alpha)^{2m}\) 几何衰减的加权和，从而把"加新鲜数据能缓解坍塌"这一经验事实化成了精确的衰减律。

研究背景与动机¶

领域现状：当前生成式 AI 越来越依赖合成数据自训练（self-training、self-improving diffusion 等），但已被反复观察到：一旦训练分布里合成数据占比过高，模型在多轮递归后会显著退化——尾部丢失、多样性塌缩、整体分布漂移，这一现象统称 model collapse。理论侧的工作大多停留在回归模型或参数化 MLE 估计上，针对扩散模型只有少量两层 score network 的架构特定上界（Fu et al. 2024; Cui et al. 2026），且只有上界。

现有痛点：纯上界回答不了"误差最少会有多大"的问题——上界为零并不意味着模型不坍塌；同时上界依赖学习侧路径能量 \(\hat\varepsilon_i^2\)，无法直接和训练目标（ideal-path 上的 score-matching loss \(\varepsilon_{\star,i}^2\)）挂钩，导致理论和实验观测之间脱节。此外，已有理论几乎不涉及"新鲜数据比例 \(\alpha\) 如何精确地抑制误差"这一最实用的旋钮。

核心矛盾：每一代训练同时存在两种相反力量——新鲜真实数据带来的"误差稀释"和不完美 score 学习带来的"误差注入"。要量化坍塌，必须同时刻画这两者，并把它们解耦到一个可解释的递推里。

本文目标：在 population level、与具体网络架构无关的情形下，针对递归训练管道 \(\hat p^i \to q_i = \alpha p_{\text{data}} + (1-\alpha)\hat p^i \to \hat p^{i+1}\)，回答两个子问题——(a) 单代散度 \(I_i = \chi^2(\hat p^{i+1}\|q_i)\) 如何被 score 误差刻画？(b) 多代累积散度 \(D_i = \chi^2(\hat p^i\|p_{\text{data}})\) 如何随代数演化？

切入角度：作者用 Girsanov 测度变换把反向 SDE 的 drift 误差打到路径测度的 Radon-Nikodym 导数上，再投影到终止时刻 \(t_0\) 的边际似然比 \(R_i(\mathbf x) = \mathbb E_{\mathbb P^\star_i}[e^{Z_T^i}\mid \mathbf Y_{t_0}=\mathbf x]\)；问题就变成"路径误差有多少被边际化时保留下来"——这正好是一个可观测性（observability）问题。

核心 idea：引入"误差可观测性系数" \(\eta_i\in[0,1]\) 度量路径 score 误差有多少落到终止状态上，于是单代下界变成 \(I_i\gtrsim \eta_i\cdot\varepsilon_{\star,i}^2\)；再把这个单代估计沿 \(\chi^2\) 散度对刷新步 \(q_i=\alpha p_{\text{data}}+(1-\alpha)\hat p^i\) 的精确收缩公式 \(\chi^2(q_i\|p_{\text{data}})=(1-\alpha)^2 \chi^2(\hat p^i\|p_{\text{data}})\) 做累加，就自然得出几何折扣的 \((1-\alpha)^{2m}\) 衰减律。

方法详解¶

整体框架¶

本文要解决的问题是：递归训练管道 \(\hat p^i \to q_i = \alpha p_{\text{data}} + (1-\alpha)\hat p^i \to \hat p^{i+1}\) 中，新鲜数据的稀释与不完美 score 学习的误差注入彼此拉扯，到底会不会、以多快的速度走向 model collapse。作者把它拆成两层处理：先在单代尺度上，用 Girsanov 测度变换把反向 SDE 的 drift 误差打到边际似然比上，再配一个新的"可观测性"系数，把单代散度 \(I_i=\chi^2(\hat p^{i+1}\|q_i)\) 上下双向夹住；然后在多代尺度上，把这个单代估计代入刷新步的 \(\chi^2\) 精确收缩关系做递推，得到累积散度 \(D_N\) 的几何折扣分解。两层结论都限定在"小 score 误差摄动"区域 \(\varepsilon_{\star,i}^2\le 1\) 内严格成立。

关键设计¶

1. 可观测性系数 \(\eta_i\)：把路径误差翻译成边际散度

扩散模型分析里最本质的难点是，路径上的 score 误差不为零并不必然让反向扩散终止时刻 \(t_0\) 的边际分布偏移——误差可能在边际化时被平均掉，所以过去只能靠上界绕过下界这一侧。作者用一个标量 \(\eta_i\in[0,1]\) 直接量化"路径误差有多少会现身到终止状态上"。具体地，定义随机积分 \(M_T^i = -\int_{t_0}^T \mathbf e_{i,s}\cdot \mathrm d\bar{\mathbf B}_s\)（路径 score 误差 \(\mathbf e_{i,s}\) 与反向 Brownian 的耦合），由 Itô isometry 有 \(\mathrm{Var}_{\mathbb P^\star_i}(M_T^i)=\varepsilon_{\star,i}^2\)，于是把"被终止状态保留下来的那部分方差占比"定义为 \(\eta_i = \mathrm{Var}_{\mathbb P^\star_i}(\mathbb E[M_T^i\mid \mathbf Y_{t_0}]) / \varepsilon_{\star,i}^2\)。直觉很清楚：与样本状态耦合的扰动（如 \(\mathbf e_{i,t}(\mathbf x)=\mathbf w\mathbf x+\xi(t)\)）会在终止状态留下印记，\(\eta_i>0\)；纯时间相关或路径正交的扰动则被条件期望平均掉，\(\eta_i=0\)。有了它，下界第一次能写成 \(I_i\ge \tfrac14\eta_i\varepsilon_{\star,i}^2 - C\varepsilon_{\star,i}^4\)，把"路径误差"和"边际散度"直接连起来，而且 \(\eta_i\) 在 CIFAR-10 等真实数据上可被数值估出且几乎总大于 0。

2. Girsanov 双向夹的单代等价 \(I_i\asymp \varepsilon_{\star,i}^2\)（Theorem 3.5）：给出可直接监控的代理量

以往结果要么只有 KL 上界，要么用 learned-path 能量 \(\hat\varepsilon_i^2\)（实践中拿不到），都没法和训练目标对齐。本文在小误差区把单代散度用 ideal-path 上的 score matching loss \(\varepsilon_{\star,i}^2\) 双侧夹住：上界沿用 Girsanov + data processing 得到 \(\mathrm{KL}(\hat p^{i+1}\|q_i)\le \tfrac12\hat\varepsilon_i^2\)，下界来自上面的可观测性论证 \(\chi^2(\hat p^{i+1}\|q_i)\ge \tfrac14\eta_i\varepsilon_{\star,i}^2-C\varepsilon_{\star,i}^4\)。要把两侧统一到 ideal-path 能量上，关键技术是证明 \(\varepsilon_{\star,i}^2\) 与 \(\hat\varepsilon_i^2\) 在 Girsanov 密度 \(L^{1+\delta}\)-可积假设 A3、二次变差矩条件 A4 下相互等价，同时 \(\chi^2\) 与 KL 在摄动区只差常数。合起来即 \(\tfrac14\eta_i\varepsilon_{\star,i}^2 - C\varepsilon_{\star,i}^4 \le \chi^2(\hat p^{i+1}\|q_i)\le 4\varepsilon_{\star,i}^2 + c\varepsilon_{\star,i}^4\)。由于两侧都用对应训练目标的 ideal-path 能量表达，理论可被实验直接验证——Figure 4 在 10D GMM 上就看到 \(\chi^2\) 和 KL 两个散度同时被 \(\varepsilon_{\star,i}^2\) 上下夹住。

3. 多代几何折扣分解 \(D_N \asymp \sum (1-\alpha)^{2(N-i)}\varepsilon_{\star,i}^2\)（Theorem 4.2）：解释为什么加新鲜数据能阻止坍塌

经验上"\(\alpha\) 越大、抑制越强"一直缺定量刻画。本文把单代等价沿代数累加得到精确衰减律。核心代数优势在于刷新步的 \(\chi^2\) 散度满足精确等式 \(\chi^2(q_i\|p_{\text{data}})=(1-\alpha)^2\chi^2(\hat p^i\|p_{\text{data}})\)（Lemma F.1）——这正是选 \(\chi^2\) 而非 KL 的原因，KL 没有这种干净的二次收缩。把它与单代等价 \(\chi^2(\hat p^{i+1}\|q_i)\asymp \varepsilon_{\star,i}^2\) 一起递推，再加一个自适应"良好集" \(\mathcal G_i\) 上的尾部假设 A5（防止合成模型在 \(p_{\text{data}}\) 极小的区域堆质量），即得 \(D_{N+1}+C_{\text{bias}}\asymp \sum_{i=i_0}^N (1-\alpha)^{2(N-i)}\varepsilon_{\star,i}^2 + (1-\alpha)^{2(N+1-i_0)}D_{i_0}\)。Proposition 4.1 还给出反向二分：若 \(\sum_i \varepsilon_{\star,i}^2=\infty\) 或存在 score-error 下界，则 \(\limsup D_i\) 不会消失，模型必坍塌。这套结论把经验事实化成显式的 \((1-\alpha)^{2m}\) 衰减——\(m\) 代以前的误差被压缩 \((1-\alpha)^{2m}\) 倍，等价于一个 \(\sim 1/\alpha\) 的 effective memory，同时给出工程指导：只要 \(\sum \varepsilon_{\star,i}^2<\infty\) 且 \(\alpha>0\)，\(D_N\) 就稳定，无需每代误差都收敛到 0。

损失函数 / 训练策略¶

没有提出新的训练损失。理论建立在标准 variance-preserving OU 前向 SDE \(\mathrm d\mathbf X_t = -\tfrac12\mathbf X_t\mathrm dt + \mathrm d\mathbf B_t\) 和反向 SDE 之上，使用 score matching loss \(\varepsilon_{\star,i}^2 = \mathbb E_{\mathbb P^\star_i}[\int_{t_0}^T \|\mathbf e_{i,s}(\mathbf Y_s)\|_2^2 \mathrm ds]\)。Minimax-optimal score 估计误差满足 \(\varepsilon_{\star,i}^2 \lesssim \mathrm{polylog}(n_i)\,n_i^{-1}(1/t_0)^{d/2}\)，即样本量在环境维 \(d\) 中指数增长才能保证摄动区成立；但在低维流形假设下只需依赖内在维 \(d^\star\ll d\)。

实验关键数据¶

主实验¶

作者用 10 维高斯混合（5 分量，\(\sigma^2\mathbf I_{10}\)）、Fashion-MNIST 与 CIFAR-10 三个数据集验证理论。所有实验都用 PCA 投影到二维做可视化，并直接估计 \(\eta_i\)、\(\varepsilon_{\star,i}^2\)、\(\chi^2\)/KL 散度。

数据集	验证目标	结果
10D Gaussian Mixture (\(\alpha\in\{0.1,0.5,0.9\}\), 20 代)	\(\alpha\) 对坍塌速度的影响 (Fig.1)	\(\alpha=0.1\) 时分布持续扩散；\(\alpha=0.5\) 保留结构但有展宽；\(\alpha=0.9\) 全程稳定
10D GMM (20 代)	单代上下界 (Prop 3.1 + 3.3)	\(\mathrm{KL}(\hat p^{i+1}\\|q_i)\le \tfrac12\hat\varepsilon_i^2\) 紧贴；\(\chi^2\ge \tfrac18\hat\eta_i\varepsilon_{\star,i}^2\) 验证 (Fig.3)
10D GMM (20 代, \(\alpha\in\{0.1,0.5\}\))	双侧等价 Thm 3.5	\(\chi^2\) 和 KL 都被 \(\tfrac14\hat\eta_i\varepsilon_{\star,i}^2\) 和 \(4\varepsilon_{\star,i}^2\) 上下夹住 (Fig.4)
10D GMM (20 代)	几何折扣分解 Thm 4.2	\(\alpha=0.1\) 宽带贡献，\(\alpha=0.9\) 仅最近代贡献，对角化结构明显 (Fig.5)
Fashion-MNIST	真实图像下的 \(\alpha\) 效应 (Fig.8/10)	与 GMM 结论一致：高 \(\alpha\) 稳定，低 \(\alpha\) 多代后坍塌
CIFAR-10	可观测性 \(\eta_i\) 在真实数据上的存在性 (Fig.2/9)	状态相关扰动（aligned / random）给出明显 \(\hat\eta_i>0\)；纯时间扰动 \(\hat\eta_i\approx 0\)

消融实验¶

论文没有传统意义上的模块消融（纯理论 + 验证实验），但 Fig.2 在 CIFAR-10 上对 score 误差类型做了"消融"，揭示 \(\eta_i\) 的来源：

扰动类型	\(\mathbf e_{i,t}(\mathbf x)\) 形式	估计 \(\hat\eta_i\)	说明
Aligned (与 drift 同向)	\(\mathbf w_i \mathbf x\), \(\mathbf w_i\) 沿 drift 方向	最高	误差被反向轨迹放大，强烈印记到终止状态
Random (随机方向)	\(\mathbf w\mathbf x\), \(\mathbf w\) 随机	中等	仍具状态依赖，\(\eta_i\) 显著大于 0
Time-only	\(\xi(t)\)，与状态无关	接近 0	条件期望把它平均掉，对边际无影响

关键发现¶

\((1-\alpha)^{2m}\) 衰减律是核心可操作结论：要让累积散度稳定，工程师不需要让每代 score 误差都趋零，只需 \(\sum \varepsilon_{\star,i}^2<\infty\) 且新鲜数据比例 \(\alpha>0\)，等效 memory window 约为 \(1/\alpha\) 代。
状态依赖性决定坍塌可见度：纯时间扰动不会带来观测到的散度增长（\(\eta_i\approx 0\)），但实际神经网络 score model 的随机初始化和优化噪声几乎必然带来状态依赖扰动，所以坍塌在实践中是"通用现象"。
\(\chi^2\) 散度是关键技术选择：刷新步上 \(\chi^2(q_i\|p_{\text{data}})=(1-\alpha)^2\chi^2(\hat p^i\|p_{\text{data}})\) 是精确等式（KL 没有这种性质），这是几何折扣递推能成立的代数根源；摄动区内 \(\chi^2\) 与 KL 等价（Fig.4 也验证了），所以下界结论也能转回 KL。
第一阶段（\(i<i_0\)）允许偏离：理论假设在前 \(i_0\) 代之后成立，Fig.3 中 \(i=1\) 的偏差不违背理论，恰好对应"瞬态"——实践中通常一两代后就稳定。

亮点与洞察¶

观测性系数 \(\eta_i\) 的提出是真正的新东西：把扩散模型分析里悬而未决的"路径误差→边际散度"鸿沟用一个单一标量量化，并能在数据上估出来——这是这篇论文最让人"啊哈"的设计。
\(\chi^2\) 散度的精妙选择：作者刻意选 \(\chi^2\) 而非 KL，正是因为刷新步 \(q_i=\alpha p_{\text{data}}+(1-\alpha)\hat p^i\) 在 \(\chi^2\) 下满足干净的二次收缩；这一观察对其他"混合-再训练"框架（如 RLHF 中混合 reference policy）也直接可迁移。
架构无关的 population-level 视角：现有理论几乎都假设两层 score network，本文完全跳过 architecture-specific 论证，从路径测度层面入手——这种"先化简到 SDE 测度比，再用 Girsanov 投影"的策略可直接套到 flow matching、consistency models 等其他 score-flavor 生成模型上。
可被实验直接验证的下界：与多数纯理论工作不同，所有定理都给出可估的常数和量，作者在 GMM/Fashion-MNIST/CIFAR-10 上把估计的 \(\hat\eta_i\) 和 \(\hat\varepsilon_{\star,i}^2\) 代入边界即可对比真实散度——这种"理论-实验闭环"在 model collapse 文献里非常少见。

局限与展望¶

仅适用于小 score 误差摄动区：所有结果都假设 \(\varepsilon_{\star,i}^2\le 1\)，但式 (12) 表明高维数据需要样本量 \(n_i\sim (1/t_0)^{d/2}\) 才能达到这一区域，实际大模型很可能在这之外。作者也明确把"大误差区域的下界"列为开放问题。
忽略离散化误差与初始化偏差：理论用连续时间反向 SDE 并假设从 \(\mathcal N(0,\mathbf I_d)\) 起始（用 OU 指数收敛吞掉），实际扩散模型用离散步数 sampler，这部分误差未量化。
可观测性 \(\eta_i\) 的下界缺乏先验保证：论文只能说"实践中几乎都 \(>0\)"（CIFAR-10 上验证），但对更复杂架构（如 transformer-based DiT、flow matching）何时 \(\eta_i\) 会塌缩到 0 没有理论判据，这是把理论用到 SOTA 模型的关键缺口。
没回答"是否有极限分布"：作者明确指出"递归训练是否收敛到某个 \(\alpha\)-依赖的极限分布"仍是开放问题；当前结论只能保证 \(D_i\) 有界或非有界，不刻画极限形态。
可改进方向：把 \(\eta_i\) 与 score network 架构、激活函数、初始化分布显式挂钩，或许能给出"哪种架构更抗坍塌"的工程指导；另外把分析推广到 multi-stage 训练（不同生成代用不同 mixing ratio \(\alpha_k\)）可能直接服务真实 self-improving pipeline。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一个扩散模型的 distribution divergence 下界 + 可观测性系数 + 几何折扣分解，三件套都是 model collapse 文献里没有的新东西。
实验充分度: ⭐⭐⭐ 纯理论 + 验证实验，10D GMM/Fashion-MNIST/CIFAR-10 都做了，对一篇理论 paper 够用，但缺乏与 SOTA self-consuming 实验设置的对齐。
写作质量: ⭐⭐⭐⭐ 结构清晰，假设 A1-A5 逐条解释合理性，把 Girsanov 论证拆成 observability + ratio control 两个独立挑战的方式很有教学价值。
价值: ⭐⭐⭐⭐ 给出可执行的工程结论（\(\alpha>0\) + 误差能量可和即可稳定）和清晰的开放问题（大误差区下界、离散化误差、极限分布），对扩散模型理论和 self-training 设计都有指导意义。