跳转至

A Closer Look at Model Collapse: From a Generalization-to-Memorization Perspective

会议: NeurIPS 2025
arXiv: 2509.16499
代码: 无
领域: 扩散模型 / 生成模型理论
关键词: 模型崩溃, self-consuming loop, 泛化, 记忆, entropy, 数据选择

一句话总结

发现扩散模型在自消耗循环(用生成数据训练下一代模型)中存在从"泛化"到"记忆"的转变过程,揭示训练集熵与模型泛化能力的强线性相关性(Pearson r=0.91),并提出基于熵的数据选择策略(Greedy Selection / Threshold Decay Filter)有效减缓该转变,在 CIFAR-10 accumulate 范式下第 8 轮 FID 从 75.7 降至 44.7。

研究背景与动机

领域现状:生成模型(扩散模型等)大量生成的合成数据已充斥互联网。下一代模型的训练数据不可避免地包含合成数据,形成"自消耗循环"(self-consuming loop)——当前模型生成数据,下一代模型在其上训练,如此反复。

现有痛点:已有研究从多个角度观察到模型退化(model collapse)现象:(a) 方差趋于 0——但方差坍塌需要极大量迭代才会发生,实际中罕见;(b) 分布偏移/总体风险增加——过于宏观,无法刻画具体的坍塌行为;(c) 生成幻觉数据。这些视角各有局限,没有揭示具体的坍塌机制。

核心矛盾:训练集大小在迭代中保持不变,但模型生成质量和多样性快速下降——说明坍塌不完全由样本数量驱动,而是由数据信息量(熵)的衰减驱动。

本文目标 - 具体刻画模型坍塌的行为模式是什么? - 什么因素驱动这种坍塌? - 如何减缓坍塌?

切入角度:从泛化/记忆的二分视角追踪扩散模型在自消耗循环中的行为变化,用泛化得分(生成样本与训练样本的最近邻距离)量化泛化能力,用微分熵估计训练集的信息量。

核心 idea:模型坍塌的本质是训练数据熵持续衰减导致的从泛化到记忆的转变,可通过最大化训练子集熵的数据选择策略来减缓。

方法详解

整体框架

本文工作分为分析干预两部分。分析部分通过三个关键发现揭示模型坍塌机制:(1) 泛化→记忆的转变存在且可量化;(2) 训练集熵在迭代中急剧下降;(3) 训练集熵与泛化得分呈强线性相关。干预部分提出两种基于熵的数据选择方法,作为自消耗循环的即插即用组件。

关键设计

  1. 泛化得分(Generalization Score)

    • 功能:量化模型是在"生成新样本"还是"复制训练样本"。
    • 核心思路:\(\text{GS}(n) = \frac{1}{|\mathcal{G}_n|} \sum_{x \in \mathcal{G}_n} \min_{z \in \mathcal{D}_n} \kappa(x, z)\),计算每个生成样本与训练集中最近邻的平均距离。GS 高说明在泛化(生成新颖样本),GS 低说明在记忆(复制训练样本)。
    • 设计动机:直接可操作的指标,与人眼对多样性的感知一致。实验观察到 GS 随迭代近指数衰减,提供了泛化→记忆转变的定量证据。
  2. 微分熵估计(KL Estimator)

    • 功能:量化训练数据集的信息含量。
    • 核心思路:使用 Kozachenko-Leonenko 估计器,基于 k 近邻距离估计连续分布的微分熵:\(\hat{H}_\gamma(\mathcal{D}) = \psi(|\mathcal{D}|) - \psi(\gamma) + \log c_d + \frac{d}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \log \varepsilon_\gamma(x)\)。数据集大小固定时,唯一变化的项是最近邻距离之和——距离越小说明数据越聚集,熵越低。
    • 关键发现:熵与 log(GS) 呈线性关系,Pearson 相关系数 0.91(p≈0),且跨不同数据集大小点都近似落在同一条线上,说明这是一个普遍规律
  3. Greedy Selection(贪心选择)

    • 功能:从候选池中选出高熵(高多样性)的训练子集。
    • 核心思路:最远点采样——迭代地选择与已选集合距离最大的点:\(x_{\text{select}} = \arg\max_{x \in S \setminus \mathcal{D}} \min_{y \in \mathcal{D}} \kappa(x, y)\)。用 DINOv2 提取特征,在特征空间计算 L2 距离。
    • 设计动机:直接近似最大化训练子集的 KL 熵估计。贪心策略虽是近似但高效,能有效打散聚集的数据簇。
  4. Threshold Decay Filter(阈值衰减过滤器)

    • 功能:提供可调节选择强度的软变体。
    • 核心思路:设定初始距离阈值 \(\tau\),遍历候选样本,只选择与已选集合中所有点距离都大于 \(\tau\) 的样本。如果选得不够,将 \(\tau\) 乘以衰减因子 \(\alpha\)(如 0.95),重复选择。
    • 设计动机:避免 Greedy Selection 的过度优化风险——贪心可能过于扩展分布导致方差过大。Threshold Decay Filter 通过阈值控制选择强度,\(\alpha \to 1\) 时近似贪心,\(\alpha = 0\) 时退化为无选择的基线。

损失函数 / 训练策略

  • 扩散模型使用标准 DDPM 训练,UNet 骨干约 16-19M 参数
  • 数据选择是即插即用的预处理步骤,不改变模型训练本身
  • 特征距离用 DINOv2 提取,增加的计算开销主要在数据筛选

实验关键数据

主实验:泛化得分改善

在 CIFAR-10 (32K 样本)、FFHQ (8K 样本)、MNIST (12K 样本) 上评估。

数据集 范式 方法 第 8 轮 FID
CIFAR-10 accumulate Vanilla 75.7
CIFAR-10 accumulate Greedy Selection 44.7
CIFAR-10 accumulate Threshold Decay ~50

消融实验:熵与泛化的相关性

指标 与 log(GS) 的 Pearson 相关系数
训练集熵 0.91 (p≈0)
训练集方差(trace of cov) 明显更弱

CFG 多样性改善

方法 第 8 轮 FID (MNIST, accumulate)
无条件生成 74.4
CFG (scale=2) 66.2
CFG + Threshold Decay Filter 22.4

关键发现

  • 泛化→记忆转变是普遍现象:在 CIFAR-10、FFHQ、MNIST 上都观察到,且在 replace 和 accumulate 两种范式下都存在
  • 数据集越大,转变越慢:32K 样本的 CIFAR-10 在前几轮还能泛化,1K 样本从第一轮就进入记忆
  • 选择方法偏好真实数据:在 accumulate 范式下,Greedy Selection 在第 8 轮选择了约 65% 的真实图像(随机子采样仅 12.5%),说明方法自动识别出真实数据比合成数据信息量更高
  • CFG 加剧多样性坍塌:CFG 生成更清晰但更单一的图像,数据选择方法能显著缓解此问题

亮点与洞察

  • 熵视角的精准洞察:将模型坍塌的本质归因于训练数据信息量(熵)的衰减,而非简单的数据量或方差问题。这解释了为什么固定大小数据集仍然会坍塌——因为信息量在减少。
  • 泛化→记忆的直觉清晰:数据逐渐聚成紧密簇 → 模型更容易记住 → 生成的数据更聚集 → 正反馈循环。比"方差趋于 0"的理论描述更直观。
  • 选择方法的优雅设计:不修改模型结构或训练流程,仅在数据层面做选择,作为即插即用组件兼容任何自消耗循环。
  • 对 CFG 的意外发现:数据选择方法不仅减缓模型坍塌,还能缓解 CFG 的多样性问题,是一个额外收获。

局限与展望

  • 实验规模有限:只在 32×32 分辨率上实验(CIFAR-10、FFHQ 下采样、MNIST),未在高分辨率大模型上验证——实际中的扩散模型如 SD、FLUX 是否有相同规律?
  • 特征空间的选择:用 DINOv2 提取特征做距离计算,但不同特征空间可能导致不同的选择结果,这方面缺乏讨论
  • 计算成本:Greedy Selection 的 O(N²) 复杂度在大规模数据集上可能不可行
  • 理论分析不够:熵与泛化的线性相关是经验观察,缺乏严格的理论证明
  • 只考虑了无监督/自监督场景:条件生成(如 text-to-image)的坍塌模式可能不同

相关工作与启发

  • vs Shumailov et al. (Nature 2024):他们观察到方差坍塌,本文视角更实际——方差坍塌需要极多轮才发生,但泛化→记忆转变在几轮内就显著
  • vs Alemohammad et al. (ICLR 2024):他们区分了 replace vs accumulate 范式,本文在此基础上发现即使 accumulate 范式也会坍塌,但可通过数据选择显著减缓
  • vs 已有数据剪枝方法:本文的选择方法(最远点采样)源自计算几何,但在模型坍塌场景下有了新的理论动机(最大化熵)
  • 可迁移的启示:在任何合成数据增强场景中,数据多样性(熵)是关键——简单增加数据量不如提高数据信息量

评分

  • 新颖性: ⭐⭐⭐⭐ 泛化→记忆视角和熵相关性分析是新发现,数据选择方法本身相对简单
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集、两种范式、CFG 实验;但分辨率和模型规模有限
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑链条非常清晰:发现→分析→解释→干预,叙述引人入胜
  • 价值: ⭐⭐⭐⭐ 对理解 AI 时代数据生态的"死亡螺旋"有重要启示,但实验规模限制了直接实用性