Scaling Behavior of Discrete Diffusion Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GDYaNzxt9T
代码: https://github.com/dvruette/gidd-easydel
领域: 预训练 / 扩散语言模型 / 标度律
关键词: 离散扩散, 标度律, 均匀扩散, 掩码扩散, 计算最优

一句话总结¶

这篇论文系统研究了离散扩散语言模型（DLM）在不同噪声类型下的标度律：通过一套用信噪比（SNR）参数化、可在掩码扩散与均匀扩散之间平滑插值的统一扩散框架，并仔细调好 batch size 与学习率，作者发现 DLM 的标度行为强依赖噪声类型——均匀扩散在数据受限场景下更"省数据、吃参数"，最终把均匀扩散模型扩到 10B 参数 / \(10^{22}\) FLOPs，验证其标度律可与自回归模型（ALM）竞争。

研究背景与动机¶

领域现状：现代 LLM 预训练几乎都用自回归语言模型（ALM），按 Chinchilla 那套标度律去配模型大小和数据量。离散扩散语言模型（DLM）作为替代范式近年兴起，它把生成过程拆成一串去噪步骤——整段 \(N\) 个 token 从纯噪声逐步精炼到纯信号，去噪步数 \(T\) 可独立于 \(N\) 选取，因此天然支持并行生成多 token、并且每一步都能修改任意 token，正好补上 ALM "只能从左到右、不能回头改"的两大短板。

现有痛点：DLM 内部，掩码扩散（MDM）因为小规模下表现好而成了主流，但它有两个隐忧——一是已有工作（Nie et al.）报告 MDM 在计算最优设定下要比 ALM 多花 \(16\times\) 算力才能追平 loss；二是 MDM 里每个 token 只经历一次状态转移（masked↔unmasked），所以和 ALM 一样无法在两个"已揭示"状态之间反复修订。与此同时，均匀扩散、混合噪声扩散这些"非掩码"变体的标度行为几乎没人认真研究过，只有小规模消融，可能被过早放弃了。

核心矛盾：从 ALM → 掩码 → 均匀扩散，本质上是对生成过程逐级施加更少的结构约束、提供更少的归纳偏置。约束越少，任务越难（均匀扩散不仅要补出噪声 token，还要先判断哪些 token 是噪声、哪些是干净的），因此小规模下 loss 更高；但反过来说，约束少也意味着更"可塑"，理论上需要更大容量、却也更能随算力增长而提升。问题是：这个直觉在真实标度律上到底成不成立？而且此前研究 MDM 标度律时还做了几个值得商榷的假设——把学习率和 batch size 固定成常数、并假设无穷算力下 loss 能逼近 0。

本文目标：在统一框架下重新、干净地估计掩码、均匀、混合三类噪声的标度律，既比计算受限（compute-bound）也比 token 受限（token-bound）的设定，并把预测外推到 3B / 10B 真实大模型上验证。

切入角度：作者注意到连续扩散早就知道"扩散过程对噪声 schedule 不变、时间只是 SNR 的代理"，于是把离散扩散也用 log-SNR 重新参数化，既统一理论又方便构造一族能在掩码↔均匀之间平滑滑动的混合噪声；同时彻底放开对 batch size、学习率、不可约 loss 的假设，从零重估标度律。

核心 idea：用 SNR 参数化的统一离散扩散族 + 精细超参标度方法，量化"噪声类型如何改变标度律"，证明均匀扩散在大算力/缺数据时代是更有前途的候选。

方法详解¶

整体框架¶

这篇论文的"方法"不是提出一个新模型去刷点，而是搭一套能公平比较不同噪声类型标度行为的实验装置，再据此拟合并外推标度律。整体可以看成三段串行：先把广义插值离散扩散（GIDD）用 log-SNR 重新参数化，得到一个更简洁、对噪声 schedule 不变的似然下界；在这个统一似然下定义一族"通用混合噪声分布"，用一个 sigmoid 开关在纯掩码与纯均匀之间平滑过渡，从而用同一套代码训练 5 种噪声类型；最后用一套去掉了旧假设的标度律估计配方（CompleteP 做学习率迁移、把 batch size 当成随 token 量变化的关键超参、并刻意不做学习率退火）去扫一大片模型/数据/batch 组合，按 iso-FLOP 方式拟合出计算最优前沿，再外推到 3B/10B 验证。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["离散数据 + 多种噪声类型<br/>(掩码 / 均匀 / 混合)"] --> B["SNR 重参数化的 GIDD<br/>把时间换成 log-SNR<br/>得 schedule 不变的 ELBO"]
    B --> C["通用混合噪声分布<br/>sigmoid 开关在掩码↔均匀间平滑插值"]
    C --> D["标度律估计配方<br/>CompleteP 迁移学习率 + 调最优 batch + 不退火"]
    D -->|iso-FLOP 拟合 + 外推| E["计算/数据最优标度律<br/>10B 均匀扩散验证"]

关键设计¶

1. SNR 重参数化的 GIDD：把"时间"换成信噪比，统一离散与连续扩散理论

离散扩散原本用时间 \(t\) 描述加噪过程，但作者指出时间本身是虚的，真正起作用的是信噪比。论文采用广义插值离散扩散（GIDD）作为底座——它把加噪过程写成数据 one-hot \(x\) 与某个随时间变化的混合分布 \(\pi_t\) 之间的插值：\(q_t(x)=\alpha_t x+\beta_t\pi_t\)，其中 \(\beta_t=1-\alpha_t\)，掩码扩散、均匀扩散都是它在特定 \(\pi_t\) 下的特例。关键一步是定义 log-SNR \(\lambda=\log\frac{\alpha}{1-\alpha}\)，于是信号强度 \(\alpha=\sigma(\lambda)\)，前向过程被改写成极简形式 \(q_\lambda(x)=\sigma(\lambda)x+\sigma(-\lambda)\pi_\lambda\)。在此基础上作者证明（Proposition 1）GIDD 的 ELBO 可以重写成对 log-SNR 做重要性采样的形式：

\[-\log p(x)\le \mathbb{E}_{\lambda,z}\Big[\tfrac{w_\lambda(x)z}{p(\lambda)}\{D_{\mathrm{KL}}(q_\lambda(x)\|q_\lambda(x_\theta))+D_{\mathrm{IS}}(q_\lambda(x)z\|q_\lambda(x_\theta)z)\}\Big]+C\]

这么做有三重好处：一是和连续扩散一样得到了"对噪声 schedule 不变"的结论，说明可以自由选 schedule（实验中取 \(p(\lambda)=\sigma'(\lambda)\) 对应线性 schedule）；二是似然界更简洁，实现上只需算混合分布的导数 \(\pi'_\lambda\)；三是把离散扩散和连续扩散的理论缝上，为后面构造可微的混合噪声铺平道路。

2. 通用混合噪声分布：一个 sigmoid 开关在掩码与均匀之间连续滑动

要公平比较"从掩码到均匀"整条谱上的噪声类型，就需要一个能平滑插值的混合分布，而不是离散地各训一套。作者定义

\[\pi_\lambda=\sigma(a\lambda+b)\,u+(1-\sigma(a\lambda+b))\,m\]

其中 \(u=\frac{1}{N-1}(1-e_m)\) 是均匀（随机替换）概率向量、\(m=e_m\) 是掩码概率向量，\(a,b\) 控制从掩码切换到均匀的位置与速度。它的妙处在于：固定 \(a>0\) 时，\(b\to-\infty\) 退化为纯掩码、\(b\to+\infty\) 退化为纯均匀，中间是各种掩码/均匀混合比例；而且由 SNR 决定切换点意味着"在去噪的哪个阶段更多掩码、哪个阶段更多随机扰动"是按信噪比自然分配的。实验里固定 \(a=1\)，取 \(b\in\{-1000,-2,0,2,1000\}\)，对应纯掩码、低均匀、平衡、高均匀、纯均匀五档（切换点 \(t\in\{0.12,0.5,0.88\}\)）。因为第 1 个设计已把 ELBO 写成 SNR 形式，这族分布只需提供 \(\pi'_\lambda=a\sigma'(a\lambda+b)(u-m)\) 就能即插即用，实现成本极低。混合扩散同时兼顾了"能修订 token"（不像纯掩码只有一次状态转移）和"似然 gap 比纯均匀小"两个优点。

3. 干净重估标度律的配方：迁移学习率 + 把 batch size 当一等超参 + 不退火

旧的 MDM 标度律工作把学习率和 batch size 固定成常数、还假设 loss 能趋于 0，作者认为这会污染结论，于是从零重估。三个支柱：其一，采用 CompleteP（µP 的变体）做参数化，让最优学习率能跨模型宽度和深度迁移，只在 25M/50M 上扫一次就定下基准（\(\sigma_{\text{base}}=0.4,\ \eta_{\text{base}}=0.3\)），后续各尺度只需按 batch size 微调学习率。其二，作者发现 batch size 不是可固定的常数，而是随训练 token 量近线性增长的关键超参——拟合出 \(B^*=10^{2.4}D^{0.8225}\)（\(R^2=0.975\)），且最优学习率又是 batch size 的幂律 \(\eta^*=10^{2.06}B^{0.3412}\)，两者都几乎与模型大小、噪声类型无关，所以可预测。其三，为了在"模型大小 × token 量 × batch size"三维上扫得起，作者刻意去掉学习率退火，用 warmup-stable schedule，让一次训练就覆盖所有 token horizon；并通过消融证明退火只带来一个恒定 \(2.45\%\pm0.138\%\) 的提升、不改变最优超参，这个常数因子可在最终训练时随时补上。拟合时用 Hoffmann 的 iso-FLOP profile（Approach 2，比参数化 loss 拟合更稳），FLOPs-per-token 用更细的 \(M=6P+12LDN\) 而非粗糙的 \(6P\)。

损失函数 / 训练策略¶

训练时不直接最小化加权 ELBO，而是用 \(p(\lambda):=1\) 的"无权 ELBO"作为代理 loss（对混合和掩码扩散收敛更好），但拟合标度律时用真实 ELBO 评估。优化器用 LaProp（Adam 变体，对 \(\beta_2\)/\(\epsilon\) 更稳），\(\beta_2\) 默认 0.99、batch≥256 时降到 0.98。架构是标准 Transformer 加若干稳定化改动：Squared ReLU、pre-block RMSNorm、QK-norm、attention logit soft-capping、attention sink。数据用未做质量过滤的 Nemotron-CC，BPE 词表 \(2^{17}=131072\)（大词表利于标度）。扩散过程还设计了条件 prompt 补全（20% 样本保留前缀干净、并 mask 掉 prompt→completion 的注意力以支持 KV-cache）、Diffusion Forcing（50% 样本按 token 独立采噪声级、支持各向异性去噪）、以及随机加 \(f\sim U(0,0.2)\) 空 token 以支持变长生成。

实验关键数据¶

主实验¶

作者训练了 25M–570M 共 5 档模型，每档在 \(2^{14}\)–\(2^{20}\) token 的 7 种 batch size 下扫学习率，5 种噪声类型合计约 510 次 run 拟合标度律，再外推到 3B/10B 验证。下表为不同噪声类型拟合出的计算最优指数（\(M^*\propto C^{\alpha_M}\) 模型大小、\(D^*\propto C^{\alpha_D}\) 数据量、\(L^*\propto C^{\alpha_L}\) loss）：

模型类型	\(\alpha_M\)（吃参数）	\(\alpha_D\)（吃数据）	\(\alpha_L\)（loss 标度）
掩码 masked	0.566	0.434	-0.0496
低均匀 low-uniform	0.535	0.465	-0.0509
平衡 balanced	0.534	0.466	-0.0512
高均匀 high-uniform	0.573	0.427	-0.0514
均匀 uniform	0.589	0.411	-0.0522
ALM: Chinchilla	0.49	0.51	–
ALM: DeepSeek (Bi et al.)	0.5243	0.4757	–

可以看到：所有扩散类型都比 ALM 更"吃参数、省数据"（\(\alpha_M\) 更大、\(\alpha_D\) 更小），其中纯均匀扩散最极端（0.589 / 0.411），且 \(\alpha_L\) 最负——说明均匀扩散在计算受限下 loss 随算力下降最快、不可约 loss 项更小。

消融实验¶

配置	关键结果	说明
学习率退火 vs 不退火	恒定提升 \(2.45\%\pm0.138\%\)	退火只平移 loss、不改最优超参，可事后补上
最优 batch size 拟合	\(B^*=10^{2.4}D^{0.8225}\), \(R^2=0.975\)	batch 随 token 量近线性，几乎与模型大小/噪声类型无关
最优学习率拟合	\(\eta^*=10^{2.06}B^{0.3412}\), \(R^2=0.909\)	学习率是 batch size 的幂律
掩码 vs 均匀似然 gap	\(3.2\%\,(10^{18})\to1.7\%\,(10^{21})\)	gap 随算力增大而收缩，支持"均匀终将追平"预测

关键发现¶

噪声类型显著改变标度律：约束越少（掩码→均匀），\(\alpha_M\) 越大、\(\alpha_D\) 越小，模型越该"吃参数省数据"，这在数据已开始枯竭、算力仍在变多的时代尤为重要。
计算受限下各噪声类型几乎收敛：图 4 左显示 5 种噪声在 compute-bound 下 loss 趋于一致，没有谁明显占优；但 token-bound 下均匀扩散胜出（图 4 右）。
标度律外推极准：拟合只用到 ≤570M 的小模型，却能准确外推到大 \(50\times\) 算力的 3B/10B run；10B 均匀扩散的标度趋势甚至和自回归的 DeepSeek 对齐，暗示 DLM 在大规模可与 ALM 竞争。
batch size–step 沿等 loss 线呈双曲关系：\(\big((S/S_{\min})^\alpha-1\big)\big((B/B_{\min})^\alpha-1\big)=1\)，说明固定模型大小下达到某目标 loss 存在最小步数 \(S_{\min}\) 和最小 batch \(B_{\min}\)，"硬度" \(\alpha\) 典型在 0.1–0.2。

亮点与洞察¶

用 SNR 统一离散与连续扩散：把"时间是 SNR 代理"的连续扩散洞见迁移到离散扩散，不仅理论更干净，还顺手得到 schedule 不变性和一个只需算 \(\pi'_\lambda\) 的极简实现，是可复用的建模 trick。
一个 sigmoid 把整条噪声谱参数化：\(\pi_\lambda=\sigma(a\lambda+b)u+(1-\sigma)m\) 让"掩码↔均匀"成了连续旋钮，公平比较成为可能——这是整篇能做"标度律 vs 噪声类型"对照的前提。
把 batch size 提升为标度律一等公民：以往工作固定 batch，本文证明它随 token 量近线性且可预测，并据此把退火剥离成可事后补的常数因子，大幅省下扫参算力——这套方法论本身对做任何标度律研究都有借鉴价值。
最"反直觉"的结论：小规模更差的均匀扩散，恰恰因为归纳偏置最少、最可塑，在大算力下标度最优、似然 gap 不断收缩——"小时候笨"反而是"长大有潜力"的信号。

局限与展望¶

作者承认 bpb 数值是条件与无条件似然的混合，不能直接和自回归模型比；不同数据集/tokenizer 下绝对 loss 也难横比，标度系数会随数据组成波动，因此与 Chinchilla 等的数字不可直接比大小。
双曲 \(B\)–\(S\) 关系与最小步数/最小 batch 只是所观测 loss 区间内的现象学描述，作者明确不指望它一路准到不可约 loss。
最大只验证到 10B / \(10^{22}\) FLOPs，"DLM 在更大规模超越 ALM"仍是外推推测；下游 NLP benchmark 只放在附录，生成质量与实际任务表现未在正文充分展开。
改进方向：把这套 SNR 框架用于设计自适应噪声 schedule、在更大规模上检验均匀扩散是否真的反超 ALM、以及结合并行/可修订生成把推理加速的优势量化出来。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统刻画不同噪声类型 DLM 的标度律，SNR 重参数化 + 可插值混合噪声是扎实的方法贡献。
实验充分度: ⭐⭐⭐⭐⭐ 510 次 run 拟合 + 外推到 10B/\(10^{22}\) FLOPs 验证，标度律、超参、退火消融齐全。
写作质量: ⭐⭐⭐⭐ 推导与方法论清晰，但绝对指标不可横比的 caveat 较多，需读者细读脚注。
价值: ⭐⭐⭐⭐⭐ 在数据枯竭、算力充裕的趋势下，论证均匀扩散是下一代 LLM 有力候选，对范式选择有实际指导意义。