Consistent Diffusion Language Models¶

会议: ICML 2026
arXiv: 2605.00161
代码: 无（论文中未公开仓库）
领域: 扩散语言模型 / 离散生成；few-step text generation；consistency training
关键词: Masked Diffusion、Multi-Path Discrete Consistency、posterior bridge、teacher-free distillation、CDLM

一句话总结¶

本文指出离散扩散没有连续域 probability-flow ODE 的对应物，因此无法直接做 consistency model；作者提出用精确闭式 posterior bridge 作为离散域的"随机版 PF-ODE 替代品"，构造 Multi-Path Discrete Consistency (MPDC) 训练目标，要求 denoiser 在多条 stochastic bridge 路径上的预测在期望上一致，从而单阶段、teacher-free 地训出可在 2-3 步生成高质量文本的 Consistent Diffusion Language Model (CDLM)，在 unconditional / conditional 文本生成上达到 SOTA、对 AR 模型最高 \(32\times\) 加速。

研究背景与动机¶

领域现状：扩散语言模型（DLM，尤其 masked diffusion MDLM）通过并行 token 生成承诺亚线性时间生成、规避自回归的串行瓶颈。MDLM 在 LM1B、OpenWebText 等基准上已能比肩 AR baselines（Sahoo 2024, Nie 2025）。

现有痛点：(i) DLM 的高质量生成需要数百步去噪，使得"并行加速"的承诺破产——既然 sampling 步数和 AR token 数同量级，并行优势就消失了；(ii) 连续域的加速利器 consistency model (Song 2023) 依赖 PF-ODE 提供从 \(x_t\) 到 \(x_0\) 的唯一确定性轨迹，consistency 损失就是要求模型沿这条轨迹的预测一致；但离散域根本没有 sample-space PF-ODE——categorical 状态空间上不存在唯一确定性路径连接不同噪声水平。

核心矛盾：连续 consistency 在 sample space 找路径；离散空间根本无路径可找。简单地把 continuous consistency model 离散化是 ill-defined 的，因此现有离散加速方法不得不退而求其次——要么搞两阶段 distillation（先训 base 再 distill，如 SDTT、DUO+DCD），要么搞连续放松 surrogate，都偏离了"原生离散"的优雅。

本文目标：(i) 找到一个在离散空间天然存在、且和 PF-ODE 在功能上对应的对象；(ii) 基于此对象设计单阶段、teacher-free 的 consistency 训练目标；(iii) 在标准 text generation benchmark 上超过强 base 和多阶段 distillation。

切入角度：虽然离散空间没有"唯一确定性路径"，但作者关键观察是：离散扩散框架（Austin 2021）天然提供一族解析的 stochastic paths——对于任意 \(s<t\)，posterior \(q(x_s\mid x_t, x_0)\) 是 closed-form 的（masked/uniform 等广泛 corruption family 都成立）。这些 bridges 定义了一个丰富的 valid 随机路径族，每条路径在期望上都能正确重建数据。

核心 idea：把 consistency 从"沿不存在的确定性 ODE 一致"改为"在所有 valid stochastic bridges 上期望一致"，即 Multi-Path Discrete Consistency (MPDC)——few-step 生成不是近似，而是 path-equivalence 的直接结论。

方法详解¶

整体框架¶

基础设定：离散扩散有 forward Markov chain \(q(x_t\mid x_0) = \prod_i \mathrm{Cat}(x_t^i; x_0^i Q_{1:t})\)，其中 \(Q_t\) 为 row-stochastic 转移矩阵；masked diffusion 的 stationary distribution 集中在 [MASK] token 上。

关键引理 (3.1)：对任意 \(0\le s<t\)，单 token 位置的解析 posterior bridge 是 \(q(x_s\mid x_t, x_0)\)，给出 closed-form 形式（masked 与 uniform 都适用）。

CDLM 训练一个时间条件 denoiser \(f_\theta(x_t, t)\)，强制要求其在 \((x_t, t)\) 处的预测和在 \((x_s, s)\) 处的预测一致，其中 \(x_s\sim q(x_s\mid x_t, x_0)\) 是通过 closed-form bridge 采样得到的"中间跳一步"状态。这等价于：从 \(x_t\) 直接预测 \(x_0\) ≡ 先经 bridge 跳到 \(x_s\)，再从 \(x_s\) 预测 \(x_0\)——通过长短路径同时训练，模型学到可靠的 long-range transitions。

关键设计¶

Multi-Path Discrete Consistency (MPDC，核心原则):
- 功能：替代连续 consistency 中"沿 PF-ODE 一致"的失败假设，定义离散域的可执行 consistency 目标。
- 核心思路：从一个 \((x_0, t, s)\) 三元组出发——\(x_0\sim p_{\text{data}}\)，\(x_t\sim q(x_t\mid x_0)\)，\(x_s\sim q(x_s\mid x_t, x_0)\)。MPDC 损失要求 \(f_\theta(x_t, t)\) 与 \(f_\theta(x_s, s)\) 在期望上一致（在分布意义下匹配，而非点对点）。这种 distributional consistency 对应"贝叶斯角度的 path equivalence"——任何 valid bridge 都是目标的合法 sufficient statistic，所以 denoiser 在 bridge 起点和终点的预测分布必须相等。
- 设计动机：在没有唯一路径的世界里，"在路径上点对点一致"是 ill-defined 的；改用"在所有路径上分布一致"既是数学上正确的弱化，也充分利用了离散扩散自带的解析 bridge 族。Few-step generation 自然涌现——因为长路径 (multi-step) 和短路径 (一步 jump) 都在训练中被覆盖，模型不需要 multi-stage distillation 单独学短路径。
Teacher-free 单阶段训练 + Closed-form Bridge 采样:
- 功能：完全无需教师模型，从头训练即可获得 few-step 生成能力。
- 核心思路：每个 batch 采 \(x_0\sim p_{\text{data}}\)，随机抽 \(0\le s<t\le 1\)，按 closed-form bridge \(q(x_s\mid x_t, x_0)\) 直接采样 \(x_s, x_t\)，然后用 MPDC 损失更新 \(f_\theta\)。由于 bridge 是解析的，采样代价仅是几次 categorical 抽样，没有任何额外神经网络前向。这区别于 SDTT / DUO+DCD 等两阶段方法——他们必须先训好 base 再用 base 作 teacher 蒸馏，CDLM 完全跳过了 teacher 训练。
- 设计动机：consistency model 在连续域常用 EMA self-teacher 或独立 teacher 引导稳定性；这些 trick 在离散域也能加，但 CDLM 证明在 MPDC 框架下 even 单纯 self-prediction loss 就能稳定收敛，因为 closed-form bridge 提供了无偏的目标方向，不需要外部蒙特卡洛估计。
统一现有方法的视角 + 通用 corruption support:
- 功能：CDLM 框架在不同 corruption 与超参极限下退化为各类现有方法，证明这是一个"母模型"。
- 核心思路：作者形式化论证以下方法都是 CDLM 的特例或近似——(i) 标准 masked diffusion 是 \(t=s+\Delta t\) 极限；(ii) continuous consistency 是 PF-ODE 极限（连续放松）；(iii) progressive distillation / shortcut models 是 bridge 的某种粗略 coupling；(iv) 两阶段离散 distillation（SDTT、DUO+DCD）是用 learned teacher 替代 closed-form bridge。同时 CDLM 不局限于 masked diffusion——任何 corruption family（uniform、edit-based 等）只要其 posterior bridge 有 closed-form 都适用。
- 设计动机：用一个 unifying lens 把分散的 baselines 串起来，既是理论贡献也是实践指导——告诉社区"不需要再为 mask 设计专用 distillation 流程，所有方法都是同一原则的不同投影"。

损失函数 / 训练策略¶

主损失：MPDC consistency loss，要求 \(f_\theta(x_t, t) \approx f_\theta(x_s, s)\) in expectation；具体实现是 cross-entropy 或 KL 形式（论文未在 method section 展开，但属标准 consistency 形式）；
训练数据：standard 文本语料（OpenWebText、LM1B 量级）；
关键：单阶段、teacher-free，无 EMA、无 teacher checkpoint、无 multi-stage curriculum；
同时支持 Masked CDLM (MCDLM) 与 Uniform CDLM (UCDLM)；MCDLM-PPLOptimized 变体在 perplexity 上进一步优化。

实验关键数据¶

主实验（基于 Fig. 2 unconditional generation perplexity vs steps）¶

模型类别	代表模型	关键现象
Base MDLM	MDLM (Sahoo 2024)	需要数百步达到合理 perplexity
Base DUO	DUO (Sahoo 2025)	与 MDLM 同量级
Distilled MDLM	SDTT (Deschenaux 2025)	多阶段，少步数下表现好
Distilled DUO	DUO+DCD (Sahoo 2025)	多阶段，greedy sampler 下 entropy 偏低（3.9）暗示 diversity 差
Base CDLM (本文)	MCDLM-PPLOptimized	全步数下 base 模型 SOTA，多数步数下击败 distilled 模型且保持相近 entropy
Distilled CDLM	distilled MCDLM	distilled 模型中 SOTA

消融实验¶

配置	关键效果	说明
2D moons toy（Fig. 1）	MDLM 需 10+ 步、CDLM 2-3 步	直观展示 few-step 优势
MCDLM vs UCDLM	都有效，MCDLM 在 PPLOptimized 设置下更强	验证 framework 对不同 corruption 通用
MCDLM-PPLOptimized vs SDTT / DUO+DCD	多数步数胜过 distilled	证明单阶段可击败多阶段
Distilled CDLM	比 distilled baseline 更强 + 更高 diversity	distillation 可叠加但非必需
相对 AR 加速比	最高 \(32\times\) speedup	兑现 DLM 的并行承诺

关键发现¶

CDLM base 即可击败 distilled baseline：MCDLM-PPLOptimized 这一单阶段、teacher-free 的 base 模型，在多数 sampling step 下超过 SDTT、DUO+DCD 这种多阶段蒸馏模型——说明 distillation 不是 few-step 必要条件，正确的训练目标是核心。
DUO+DCD 的 entropy 异常：greedy sampler 下 entropy 仅 3.9，远低于其他模型，暗示其 diversity 收缩严重；CDLM 保持相近 entropy 同时 perplexity 更低，证明加速没有以牺牲多样性为代价。
Few-step generation 是 emergent property：因为 MPDC 在训练时同时见过长短路径，模型自然学到 long-range transitions；不像 distillation 是"训练后强行压缩"。
统一视角带来设计自由度：MCDLM / UCDLM 显示 framework 跨 corruption family 通用，未来研究者可在新 corruption（如 edit-based、Mark0v chain corruption）上直接套用 MPDC。
最高 \(32\times\) over AR baseline：在保持 quality 的前提下，CDLM distilled 版相对 AR 模型实现 32 倍生成加速——首次让 DLM 在效率与质量上同时打平甚至超过 AR。

亮点与洞察¶

"找不到确定性路径就用解析随机路径族"是个深刻的方法论指导：很多机器学习问题（如离散 normalizing flow、graph diffusion）都有"连续版本可解析、离散版本失败"的尴尬；CDLM 给出的策略——找一个离散域天然存在的解析对象作为连续版本的替代——具有跨领域启发意义。
Posterior bridge 是被忽视的金矿：Austin 2021 早就给出 closed-form bridge，但社区只把它用在 ELBO 推导里；本文第一次把它当作"训练目标的核心采样工具"。这种"重新审视已知公式的新用途"是很优雅的研究范式。
Distributional consistency vs pointwise consistency：在连续域大家习惯了 pointwise（沿一条 ODE 路径），本文把它泛化到 distributional（在路径族上期望），这一概念可能反过来启发连续域的 consistency 改进。
单阶段、teacher-free 的工程价值：训练 pipeline 显著简化——不用先训 base 再 distill、不用维护 teacher checkpoint、不用调 EMA decay——对开源社区复现和工业部署都友好。
统一视角作为理论贡献：把 MDLM / continuous consistency / progressive distillation / SDTT / DUO+DCD 都说成是 MPDC 的特例，既是理论清洗也是路标——告诉社区"别再发明分散的 acceleration 技巧了"。

局限与展望¶

未提供详细消融数字：论文摘要与 method section 主要展示 framework，具体在 LM1B / OpenWebText 的 perplexity 数字（如生成质量 vs 步数 vs MAUVE 的全表）应在主文 experiments section 详述，但 cache 中可见部分尚未涉及具体数值表，使得"全步数 SOTA"难以独立验证。
依赖 corruption 的 closed-form bridge：虽然 masked / uniform 都支持，但更通用的 corruption（如 edit distance based、structured corruption）的 closed-form 可能不存在，限制 framework 的适用范围。
DUO+DCD 在 greedy 下 entropy 偏低暗示 diversity-quality trade-off 难解：CDLM 虽然 entropy 更平衡，但论文未充分讨论 sampling 策略（greedy vs nucleus）对 CDLM 自身的影响。
缺与 AR baseline 的语义质量对比：32× 加速很吸引人，但生成内容的下游任务（如 QA、reasoning）质量与 AR 对比未在 abstract / intro 提及；可能在主文后段，但 cache 未涵盖。
训练计算开销未报告：单阶段虽简化 pipeline，但 MPDC loss 需要同时见短路径和长路径，是否增加 wall-clock training time 未明确。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "用 stochastic bridge family 替代不存在的 PF-ODE 来做 consistency" 是真正的概念创新，理论上漂亮、方法上清晰、工程上落地。
实验充分度: ⭐⭐⭐ 在 unconditional / conditional 文本生成上验证 SOTA、消融跨 base/distilled、覆盖 MCDLM/UCDLM 两种 prior；但具体数值表在 cache 可见部分较少，扩展评估（如 zero-shot perplexity 跨域）也未覆盖。
写作质量: ⭐⭐⭐⭐⭐ Intro 把"为什么离散 consistency 难"讲得透彻，统一视角部分把社区分散方法收归一处，可读性极强。
价值: ⭐⭐⭐⭐⭐ 第一次让单阶段 teacher-free 训练出的 DLM 在 sampling efficiency 上同时压制 AR 和多阶段 distillation，对 DLM 走向实用是关键一步；framework 通用，未来可被作为 baseline 长期引用。