Consistent Diffusion Language Models¶
会议: ICML 2026
arXiv: 2605.00161
代码: 无(论文中未公开仓库)
领域: 扩散语言模型 / 离散生成;few-step text generation;consistency training
关键词: Masked Diffusion、Multi-Path Discrete Consistency、posterior bridge、teacher-free distillation、CDLM
一句话总结¶
本文指出离散扩散没有连续域 probability-flow ODE 的对应物,因此无法直接做 consistency model;作者提出用精确闭式 posterior bridge 作为离散域的"随机版 PF-ODE 替代品",构造 Multi-Path Discrete Consistency (MPDC) 训练目标,要求 denoiser 在多条 stochastic bridge 路径上的预测在期望上一致,从而单阶段、teacher-free 地训出可在 2-3 步生成高质量文本的 Consistent Diffusion Language Model (CDLM),在 unconditional / conditional 文本生成上达到 SOTA、对 AR 模型最高 \(32\times\) 加速。
研究背景与动机¶
领域现状:扩散语言模型(DLM,尤其 masked diffusion MDLM)通过并行 token 生成承诺亚线性时间生成、规避自回归的串行瓶颈。MDLM 在 LM1B、OpenWebText 等基准上已能比肩 AR baselines(Sahoo 2024, Nie 2025)。
现有痛点:(i) DLM 的高质量生成需要数百步去噪,使得"并行加速"的承诺破产——既然 sampling 步数和 AR token 数同量级,并行优势就消失了;(ii) 连续域的加速利器 consistency model (Song 2023) 依赖 PF-ODE 提供从 \(x_t\) 到 \(x_0\) 的唯一确定性轨迹,consistency 损失就是要求模型沿这条轨迹的预测一致;但离散域根本没有 sample-space PF-ODE——categorical 状态空间上不存在唯一确定性路径连接不同噪声水平。
核心矛盾:连续 consistency 在 sample space 找路径;离散空间根本无路径可找。简单地把 continuous consistency model 离散化是 ill-defined 的,因此现有离散加速方法不得不退而求其次——要么搞两阶段 distillation(先训 base 再 distill,如 SDTT、DUO+DCD),要么搞连续放松 surrogate,都偏离了"原生离散"的优雅。
本文目标:(i) 找到一个在离散空间天然存在、且和 PF-ODE 在功能上对应的对象;(ii) 基于此对象设计单阶段、teacher-free 的 consistency 训练目标;(iii) 在标准 text generation benchmark 上超过强 base 和多阶段 distillation。
切入角度:虽然离散空间没有"唯一确定性路径",但作者关键观察是:离散扩散框架(Austin 2021)天然提供一族解析的 stochastic paths——对于任意 \(s<t\),posterior \(q(x_s\mid x_t, x_0)\) 是 closed-form 的(masked/uniform 等广泛 corruption family 都成立)。这些 bridges 定义了一个丰富的 valid 随机路径族,每条路径在期望上都能正确重建数据。
核心 idea:把 consistency 从"沿不存在的确定性 ODE 一致"改为"在所有 valid stochastic bridges 上期望一致",即 Multi-Path Discrete Consistency (MPDC)——few-step 生成不是近似,而是 path-equivalence 的直接结论。
方法详解¶
整体框架¶
基础设定:离散扩散有 forward Markov chain \(q(x_t\mid x_0) = \prod_i \mathrm{Cat}(x_t^i; x_0^i Q_{1:t})\),其中 \(Q_t\) 为 row-stochastic 转移矩阵;masked diffusion 的 stationary distribution 集中在 [MASK] token 上。
关键引理 (3.1):对任意 \(0\le s<t\),单 token 位置的解析 posterior bridge 是 \(q(x_s\mid x_t, x_0)\),给出 closed-form 形式(masked 与 uniform 都适用)。
CDLM 训练一个时间条件 denoiser \(f_\theta(x_t, t)\),强制要求其在 \((x_t, t)\) 处的预测和在 \((x_s, s)\) 处的预测一致,其中 \(x_s\sim q(x_s\mid x_t, x_0)\) 是通过 closed-form bridge 采样得到的"中间跳一步"状态。这等价于:从 \(x_t\) 直接预测 \(x_0\) ≡ 先经 bridge 跳到 \(x_s\),再从 \(x_s\) 预测 \(x_0\)——通过长短路径同时训练,模型学到可靠的 long-range transitions。
关键设计¶
-
Multi-Path Discrete Consistency (MPDC,核心原则):
- 功能:替代连续 consistency 中"沿 PF-ODE 一致"的失败假设,定义离散域的可执行 consistency 目标。
- 核心思路:从一个 \((x_0, t, s)\) 三元组出发——\(x_0\sim p_{\text{data}}\),\(x_t\sim q(x_t\mid x_0)\),\(x_s\sim q(x_s\mid x_t, x_0)\)。MPDC 损失要求 \(f_\theta(x_t, t)\) 与 \(f_\theta(x_s, s)\) 在期望上一致(在分布意义下匹配,而非点对点)。这种 distributional consistency 对应"贝叶斯角度的 path equivalence"——任何 valid bridge 都是目标的合法 sufficient statistic,所以 denoiser 在 bridge 起点和终点的预测分布必须相等。
- 设计动机:在没有唯一路径的世界里,"在路径上点对点一致"是 ill-defined 的;改用"在所有路径上分布一致"既是数学上正确的弱化,也充分利用了离散扩散自带的解析 bridge 族。Few-step generation 自然涌现——因为长路径 (multi-step) 和短路径 (一步 jump) 都在训练中被覆盖,模型不需要 multi-stage distillation 单独学短路径。
-
Teacher-free 单阶段训练 + Closed-form Bridge 采样:
- 功能:完全无需教师模型,从头训练即可获得 few-step 生成能力。
- 核心思路:每个 batch 采 \(x_0\sim p_{\text{data}}\),随机抽 \(0\le s<t\le 1\),按 closed-form bridge \(q(x_s\mid x_t, x_0)\) 直接采样 \(x_s, x_t\),然后用 MPDC 损失更新 \(f_\theta\)。由于 bridge 是解析的,采样代价仅是几次 categorical 抽样,没有任何额外神经网络前向。这区别于 SDTT / DUO+DCD 等两阶段方法——他们必须先训好 base 再用 base 作 teacher 蒸馏,CDLM 完全跳过了 teacher 训练。
- 设计动机:consistency model 在连续域常用 EMA self-teacher 或独立 teacher 引导稳定性;这些 trick 在离散域也能加,但 CDLM 证明在 MPDC 框架下 even 单纯 self-prediction loss 就能稳定收敛,因为 closed-form bridge 提供了无偏的目标方向,不需要外部蒙特卡洛估计。
-
统一现有方法的视角 + 通用 corruption support:
- 功能:CDLM 框架在不同 corruption 与超参极限下退化为各类现有方法,证明这是一个"母模型"。
- 核心思路:作者形式化论证以下方法都是 CDLM 的特例或近似——(i) 标准 masked diffusion 是 \(t=s+\Delta t\) 极限;(ii) continuous consistency 是 PF-ODE 极限(连续放松);(iii) progressive distillation / shortcut models 是 bridge 的某种粗略 coupling;(iv) 两阶段离散 distillation(SDTT、DUO+DCD)是用 learned teacher 替代 closed-form bridge。同时 CDLM 不局限于 masked diffusion——任何 corruption family(uniform、edit-based 等)只要其 posterior bridge 有 closed-form 都适用。
- 设计动机:用一个 unifying lens 把分散的 baselines 串起来,既是理论贡献也是实践指导——告诉社区"不需要再为 mask 设计专用 distillation 流程,所有方法都是同一原则的不同投影"。
损失函数 / 训练策略¶
- 主损失:MPDC consistency loss,要求 \(f_\theta(x_t, t) \approx f_\theta(x_s, s)\) in expectation;具体实现是 cross-entropy 或 KL 形式(论文未在 method section 展开,但属标准 consistency 形式);
- 训练数据:standard 文本语料(OpenWebText、LM1B 量级);
- 关键:单阶段、teacher-free,无 EMA、无 teacher checkpoint、无 multi-stage curriculum;
- 同时支持 Masked CDLM (MCDLM) 与 Uniform CDLM (UCDLM);MCDLM-PPLOptimized 变体在 perplexity 上进一步优化。
实验关键数据¶
主实验(基于 Fig. 2 unconditional generation perplexity vs steps)¶
| 模型类别 | 代表模型 | 关键现象 |
|---|---|---|
| Base MDLM | MDLM (Sahoo 2024) | 需要数百步达到合理 perplexity |
| Base DUO | DUO (Sahoo 2025) | 与 MDLM 同量级 |
| Distilled MDLM | SDTT (Deschenaux 2025) | 多阶段,少步数下表现好 |
| Distilled DUO | DUO+DCD (Sahoo 2025) | 多阶段,greedy sampler 下 entropy 偏低(3.9)暗示 diversity 差 |
| Base CDLM (本文) | MCDLM-PPLOptimized | 全步数下 base 模型 SOTA,多数步数下击败 distilled 模型且保持相近 entropy |
| Distilled CDLM | distilled MCDLM | distilled 模型中 SOTA |
消融实验¶
| 配置 | 关键效果 | 说明 |
|---|---|---|
| 2D moons toy(Fig. 1) | MDLM 需 10+ 步、CDLM 2-3 步 | 直观展示 few-step 优势 |
| MCDLM vs UCDLM | 都有效,MCDLM 在 PPLOptimized 设置下更强 | 验证 framework 对不同 corruption 通用 |
| MCDLM-PPLOptimized vs SDTT / DUO+DCD | 多数步数胜过 distilled | 证明单阶段可击败多阶段 |
| Distilled CDLM | 比 distilled baseline 更强 + 更高 diversity | distillation 可叠加但非必需 |
| 相对 AR 加速比 | 最高 \(32\times\) speedup | 兑现 DLM 的并行承诺 |
关键发现¶
- CDLM base 即可击败 distilled baseline:MCDLM-PPLOptimized 这一单阶段、teacher-free 的 base 模型,在多数 sampling step 下超过 SDTT、DUO+DCD 这种多阶段蒸馏模型——说明 distillation 不是 few-step 必要条件,正确的训练目标是核心。
- DUO+DCD 的 entropy 异常:greedy sampler 下 entropy 仅 3.9,远低于其他模型,暗示其 diversity 收缩严重;CDLM 保持相近 entropy 同时 perplexity 更低,证明加速没有以牺牲多样性为代价。
- Few-step generation 是 emergent property:因为 MPDC 在训练时同时见过长短路径,模型自然学到 long-range transitions;不像 distillation 是"训练后强行压缩"。
- 统一视角带来设计自由度:MCDLM / UCDLM 显示 framework 跨 corruption family 通用,未来研究者可在新 corruption(如 edit-based、Mark0v chain corruption)上直接套用 MPDC。
- 最高 \(32\times\) over AR baseline:在保持 quality 的前提下,CDLM distilled 版相对 AR 模型实现 32 倍生成加速——首次让 DLM 在效率与质量上同时打平甚至超过 AR。
亮点与洞察¶
- "找不到确定性路径就用解析随机路径族"是个深刻的方法论指导:很多机器学习问题(如离散 normalizing flow、graph diffusion)都有"连续版本可解析、离散版本失败"的尴尬;CDLM 给出的策略——找一个离散域天然存在的解析对象作为连续版本的替代——具有跨领域启发意义。
- Posterior bridge 是被忽视的金矿:Austin 2021 早就给出 closed-form bridge,但社区只把它用在 ELBO 推导里;本文第一次把它当作"训练目标的核心采样工具"。这种"重新审视已知公式的新用途"是很优雅的研究范式。
- Distributional consistency vs pointwise consistency:在连续域大家习惯了 pointwise(沿一条 ODE 路径),本文把它泛化到 distributional(在路径族上期望),这一概念可能反过来启发连续域的 consistency 改进。
- 单阶段、teacher-free 的工程价值:训练 pipeline 显著简化——不用先训 base 再 distill、不用维护 teacher checkpoint、不用调 EMA decay——对开源社区复现和工业部署都友好。
- 统一视角作为理论贡献:把 MDLM / continuous consistency / progressive distillation / SDTT / DUO+DCD 都说成是 MPDC 的特例,既是理论清洗也是路标——告诉社区"别再发明分散的 acceleration 技巧了"。
局限与展望¶
- 未提供详细消融数字:论文摘要与 method section 主要展示 framework,具体在 LM1B / OpenWebText 的 perplexity 数字(如生成质量 vs 步数 vs MAUVE 的全表)应在主文 experiments section 详述,但 cache 中可见部分尚未涉及具体数值表,使得"全步数 SOTA"难以独立验证。
- 依赖 corruption 的 closed-form bridge:虽然 masked / uniform 都支持,但更通用的 corruption(如 edit distance based、structured corruption)的 closed-form 可能不存在,限制 framework 的适用范围。
- DUO+DCD 在 greedy 下 entropy 偏低暗示 diversity-quality trade-off 难解:CDLM 虽然 entropy 更平衡,但论文未充分讨论 sampling 策略(greedy vs nucleus)对 CDLM 自身的影响。
- 缺与 AR baseline 的语义质量对比:32× 加速很吸引人,但生成内容的下游任务(如 QA、reasoning)质量与 AR 对比未在 abstract / intro 提及;可能在主文后段,但 cache 未涵盖。
- 训练计算开销未报告:单阶段虽简化 pipeline,但 MPDC loss 需要同时见短路径和长路径,是否增加 wall-clock training time 未明确。
相关工作与启发¶
- vs MDLM (Sahoo 2024):CDLM 的 base 模型 train 出来后性能 dominates MDLM,证明 MPDC loss 比标准 MDLM ELBO 在 sampling efficiency 上更优。
- vs Continuous Consistency Models (Song 2023):思想直接对应,但解决了"离散域无 PF-ODE"的根本难题;本文相当于把 Song 2023 的成功在离散域复刻。
- vs SDTT / DUO+DCD(两阶段 distillation):CDLM 是单阶段对应物,证明 distillation 是 MPDC 的某种近似;CDLM 又可在其基础上再 distill 进一步压步数。
- vs Progressive Distillation / Shortcut Models:这些都是连续域 acceleration trick,CDLM 把它们重新解读为 bridge consistency 的特殊情形。
- vs AR Language Models:CDLM distilled 实现 32× 加速,是 DLM 第一次有真实 wall-clock 优势的工作之一。
- 启发:MPDC 思路可迁移到 graph diffusion、structured prediction、sequence labeling 等任何"有 closed-form posterior 但无确定性 path"的离散生成场景。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "用 stochastic bridge family 替代不存在的 PF-ODE 来做 consistency" 是真正的概念创新,理论上漂亮、方法上清晰、工程上落地。
- 实验充分度: ⭐⭐⭐ 在 unconditional / conditional 文本生成上验证 SOTA、消融跨 base/distilled、覆盖 MCDLM/UCDLM 两种 prior;但具体数值表在 cache 可见部分较少,扩展评估(如 zero-shot perplexity 跨域)也未覆盖。
- 写作质量: ⭐⭐⭐⭐⭐ Intro 把"为什么离散 consistency 难"讲得透彻,统一视角部分把社区分散方法收归一处,可读性极强。
- 价值: ⭐⭐⭐⭐⭐ 第一次让单阶段 teacher-free 训练出的 DLM 在 sampling efficiency 上同时压制 AR 和多阶段 distillation,对 DLM 走向实用是关键一步;framework 通用,未来可被作为 baseline 长期引用。