NeurIPS2025 图像生成扩散模型记忆化泛化隐式正则化训练动力学随机特征早停

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training¶

会议: NeurIPS2025
arXiv: 2505.17638
作者: Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard (LPENS/PSL Paris, Bocconi University) 代码: 未公开
领域: 图像生成
关键词: 扩散模型, 记忆化, 泛化, 隐式正则化, 训练动力学, 随机特征, 早停

一句话总结¶

通过数值实验和理论分析揭示扩散模型训练中存在两个关键时间尺度——泛化时间 \(\tau_{\text{gen}}\) 和记忆化时间 \(\tau_{\text{mem}}\)，后者随训练集大小 \(n\) 线性增长而前者保持恒定，由此产生的隐式动力学正则化使模型即使在高度过参数化情况下也能通过早停避免记忆化。

研究背景与动机¶

扩散模型在图像、音频、视频等多种生成任务中取得了SOTA表现，但一个核心问题尚未得到充分理解：为什么高度过参数化的扩散模型不会记忆训练数据？

经验分数的理论极限：如果模型完美学习经验分数（empirical score），理论上必然在生成过程中复制训练样本，除非 \(n\) 以维度 \(d\) 的指数级增长
实际观察的矛盾：在实际应用中，记忆化仅在 \(n\) 较小时出现，远在 \(n\) 达到指数级之前就消失了
现有解释不完整：模型架构的归纳偏置、有限学习率的动力学正则化等已被证明有作用，但这些机制都不能完全解释记忆化-泛化转换的核心驱动力

核心假说：训练动力学本身存在一种隐式偏好，使模型倾向于学习泛化性好的解，而这种偏好与训练集大小直接相关。

方法详解¶

核心发现：两个时间尺度¶

通过系统性实验，作者识别出训练过程中三个阶段：

欠拟合阶段 (\(\tau < \tau_{\text{gen}}\))：模型尚未学到足够信息，生成质量差
泛化阶段 (\(\tau_{\text{gen}} \leq \tau \leq \tau_{\text{mem}}\))：模型生成高质量且多样化的新样本
记忆化阶段 (\(\tau > \tau_{\text{mem}}\))：模型开始复制训练样本

关键定量规律： - \(\tau_{\text{gen}}\) 独立于 训练集大小 \(n\)，仅取决于模型容量 - \(\tau_{\text{mem}} \propto n\)，与训练集大小线性增长 - 泛化窗口 \([\tau_{\text{gen}}, \tau_{\text{mem}}]\) 随 \(n\) 线性扩大

实验设置（U-Net on CelebA）¶

数据集：CelebA 灰度图，下采样至 \(32 \times 32\)，\(n\) 从 128 到 32768
模型：U-Net 架构，三层分辨率，基础通道宽度 \(W \in \{8, 16, 32, 48, 64\}\)，参数量 \(p \in \{0.26, 1, 4, 9, 16\} \times 10^6\)
训练：SGD with momentum，DDPM 框架，批大小 \(\min(n, 512)\)
评估：FID（生成质量）+ 记忆化比例 \(f_{\text{mem}}\)（基于生成样本与训练集最近邻/次近邻距离比）

记忆化判定标准¶

生成样本 \(\mathbf{x}_\tau\) 被判定为记忆化，当：

\[\mathbb{E}_{\mathbf{x}_\tau}\left[\frac{\|\mathbf{x}_\tau - \mathbf{a}^{\mu_1}\|_2}{\|\mathbf{x}_\tau - \mathbf{a}^{\mu_2}\|_2}\right] < k = \frac{1}{3}\]

其中 \(\mathbf{a}^{\mu_1}\), \(\mathbf{a}^{\mu_2}\) 分别为训练集中的最近邻和次近邻。

理论分析：随机特征网络（RFNN）¶

为了建立可求解的理论框架，采用随机特征神经网络参数化分数函数：

\[\mathbf{s}_{\mathbf{A}}(\mathbf{x}) = \frac{\mathbf{A}}{\sqrt{p}} \sigma\left(\frac{\mathbf{W}\mathbf{x}}{\sqrt{d}}\right)\]

其中第一层权重 \(\mathbf{W}\) 冻结，仅训练第二层 \(\mathbf{A}\)。在高维极限 \(d, p, n \to \infty\)（保持 \(\psi_p = p/d\), \(\psi_n = n/d\) 固定）下：

训练动力学的时间尺度由矩阵 \(\mathbf{U}\) 的特征值谱决定
Theorem 3.2（核心理论结果）：在过参数化情况（\(\psi_p > \psi_n \gg 1\)）下，\(\mathbf{U}\) 的特征值谱分解为两个尺度分离的部分：
- \(\rho_2\)（大特征值bulk）：对应泛化时间尺度，量级为 \(\psi_p\)，独立于 \(\psi_n\)
- \(\rho_1\)（小特征值bulk）：对应记忆化时间尺度，量级为 \(\psi_p / \psi_n\)
- 由此推导出 \(\tau_{\text{mem}} \propto \psi_n / \Delta_t \propto n\)

相图分析¶

在 \((n, p)\) 平面上存在三个区域： 1. 记忆化区：\(n\) 足够小时，模型在 \(\tau_{\text{gen}}\) 时就已记忆化 2. 动力学正则化区：\(n_{\text{gm}}(p) < n < n^*(p)\)，通过早停实现泛化 3. 架构正则化区：\(n > n^*(p)\)，模型表达能力不足以记忆，即 \(\tau \to \infty\) 也不会记忆化

实验关键数据¶

Table/Figure 2：训练集大小对记忆化的影响（U-Net, \(p = 4 \times 10^6\), \(W = 32\)）¶

训练集 \(n\)	\(\tau_{\text{gen}}\) (SGD steps)	\(f_{\text{mem}}\) 出现时间	\(\tau / n\) 归一化后collapse
128	~100K	~30K	是
256	~100K	~80K	是
512	~100K	~150K	是
1024	~100K	~300K	是
2048	~100K	~600K	是
4096	~100K	~1.2M	是
32768	~100K	>11M (未观察到)	—

关键发现： - \(\tau_{\text{gen}} \approx 100\)K 对所有 \(n\) 保持恒定 - 归一化记忆化比例 \(f_{\text{mem}}(\tau)/f_{\text{mem}}(\tau_{\max})\) 在 \(\tau/n \approx 300\) 处统一上升，证明 \(\tau_{\text{mem}} \propto n\) - \(n = 32768\) 时，即使训练 11M 步，测试损失仍与训练损失接近

Table/Figure 3：模型容量的影响（U-Net 不同宽度 \(W\)）¶

宽度 \(W\)	参数量 \(p\)	\(\tau_{\text{gen}}\) 缩放	\(\tau_{\text{mem}}\) 缩放
8	0.26M	基准	基准
16	1M	\(\propto W^{-1}\)	\(\propto nW^{-1}\)
32	4M	\(\propto W^{-1}\)	\(\propto nW^{-1}\)
48	9M	\(\propto W^{-1}\)	\(\propto nW^{-1}\)
64	16M	\(\propto W^{-1}\)	\(\propto nW^{-1}\)

关键发现： - 更大容量网络更快达到泛化和记忆化，但两个时间尺度的比值 \(\tau_{\text{mem}}/\tau_{\text{gen}}\) 仍随 \(n\) 线性增长 - 临界训练集大小 \(n_{\text{gm}}(p)\)（\(\tau_{\text{mem}} = \tau_{\text{gen}}\) 的临界点）对 \(W > 8\) 近似独立于 \(p\) - \((n, p)\) 相图清晰展示动力学正则化区域随 \(\tau\) 增加而扩大

理论验证：RFNN 模型¶

在 RFNN 上，训练/测试损失的分离时间同样随 \(\psi_n\) 线性缩放
\(\mathcal{E}_{\text{score}}\) 在泛化阶段的最优值以 \(\mathcal{O}(\psi_n^{-0.59})\) 速率衰减
泛化损失 \(\mathcal{L}_{\text{gen}}\) 在 \((n, p)\) 平面的热图在不同 \(\tau\) 下展现出与 U-Net 一致的相变行为

亮点¶

统一的理论画面：首次将扩散模型的记忆化-泛化转换归因于训练动力学中两个时间尺度的分离，建立了从经验到理论的完整链条
简明的缩放律：\(\tau_{\text{gen}} = \text{const}\)，\(\tau_{\text{mem}} \propto n\) —— 极其简洁有力的定量规律，直接指导实践中的早停策略
物理直觉：经验分数在低噪声水平下高度不规则（高频成分），而神经网络的频谱偏好使其先学低频（泛化）再学高频（记忆化），与 spectral bias 一致
排除了简单解释：通过 full-batch 实验证明记忆化延迟并非源于样本重复频率差异，而是损失景观的内在 \(n\) 依赖性
清晰的相图：在 \((n, p)\) 平面上清晰划分三个区域，为模型设计和训练提供了全局视角

局限与展望¶

仅验证 SGD：虽然附录中展示 Adam 也有类似现象，但未系统研究不同优化器如何影响两个时间尺度的绝对值
无条件生成为主：主实验基于无条件扩散模型，条件生成（如 classifier-free guidance）仅在合成数据上简要验证
参数范围有限：\(p\) 仅覆盖 1M-16M，未能映射完整的大规模 \((n, p)\) 相图
理论模型简化：RFNN 模型与实际 U-Net 差距较大（单层可训练、固定扩散时间 \(t\)），更丰富的数据分布和架构下的理论扩展仍为开放问题
低分辨率实验：CelebA \(32 \times 32\) 灰度图与工业级扩散模型的规模差距显著

评分¶

新颖性: ⭐⭐⭐⭐ — 两个时间尺度的分离及其缩放律是新颖且深刻的发现，但思路（早停防记忆化）并非全新
实验充分度: ⭐⭐⭐⭐ — U-Net + RFNN 双重验证，系统变化 \(n\) 和 \(p\)，但仅在低分辨率灰度图上验证
写作质量: ⭐⭐⭐⭐⭐ — 理论与实验结合紧密，相图可视化直觉清晰，符号体系一致
价值: ⭐⭐⭐⭐ — 为扩散模型训练的早停策略提供理论依据，对数据稀缺领域（如科学数据生成）有实际指导意义