跳转至

Consistent Diffusion Language Models

会议: ICML 2026
arXiv: 2605.00161
代码: 无(论文中未公开仓库)
领域: 扩散语言模型 / 离散生成;few-step text generation;consistency training
关键词: Masked Diffusion、Multi-Path Discrete Consistency、posterior bridge、teacher-free distillation、CDLM

一句话总结

本文指出离散扩散没有连续域 probability-flow ODE 的对应物,因此无法直接做 consistency model;作者提出用精确闭式 posterior bridge 作为离散域的"随机版 PF-ODE 替代品",构造 Multi-Path Discrete Consistency (MPDC) 训练目标,要求 denoiser 在多条 stochastic bridge 路径上的预测在期望上一致,从而单阶段、teacher-free 地训出可在 2-3 步生成高质量文本的 Consistent Diffusion Language Model (CDLM),在 unconditional / conditional 文本生成上达到 SOTA、对 AR 模型最高 \(32\times\) 加速。

研究背景与动机

领域现状:扩散语言模型(DLM,尤其 masked diffusion MDLM)通过并行 token 生成承诺亚线性时间生成、规避自回归的串行瓶颈。MDLM 在 LM1B、OpenWebText 等基准上已能比肩 AR baselines(Sahoo 2024, Nie 2025)。

现有痛点:(i) DLM 的高质量生成需要数百步去噪,使得"并行加速"的承诺破产——既然 sampling 步数和 AR token 数同量级,并行优势就消失了;(ii) 连续域的加速利器 consistency model (Song 2023) 依赖 PF-ODE 提供从 \(x_t\)\(x_0\) 的唯一确定性轨迹,consistency 损失就是要求模型沿这条轨迹的预测一致;但离散域根本没有 sample-space PF-ODE——categorical 状态空间上不存在唯一确定性路径连接不同噪声水平。

核心矛盾:连续 consistency 在 sample space 找路径;离散空间根本无路径可找。简单地把 continuous consistency model 离散化是 ill-defined 的,因此现有离散加速方法不得不退而求其次——要么搞两阶段 distillation(先训 base 再 distill,如 SDTT、DUO+DCD),要么搞连续放松 surrogate,都偏离了"原生离散"的优雅。

本文目标:(i) 找到一个在离散空间天然存在、且和 PF-ODE 在功能上对应的对象;(ii) 基于此对象设计单阶段、teacher-free 的 consistency 训练目标;(iii) 在标准 text generation benchmark 上超过强 base 和多阶段 distillation。

切入角度:虽然离散空间没有"唯一确定性路径",但作者关键观察是:离散扩散框架(Austin 2021)天然提供一族解析的 stochastic paths——对于任意 \(s<t\),posterior \(q(x_s\mid x_t, x_0)\) 是 closed-form 的(masked/uniform 等广泛 corruption family 都成立)。这些 bridges 定义了一个丰富的 valid 随机路径族,每条路径在期望上都能正确重建数据。

核心 idea:把 consistency 从"沿不存在的确定性 ODE 一致"改为"在所有 valid stochastic bridges 上期望一致",即 Multi-Path Discrete Consistency (MPDC)——few-step 生成不是近似,而是 path-equivalence 的直接结论。

方法详解

整体框架

基础设定:离散扩散有 forward Markov chain \(q(x_t\mid x_0) = \prod_i \mathrm{Cat}(x_t^i; x_0^i Q_{1:t})\),其中 \(Q_t\) 为 row-stochastic 转移矩阵;masked diffusion 的 stationary distribution 集中在 [MASK] token 上。

关键引理 (3.1):对任意 \(0\le s<t\),单 token 位置的解析 posterior bridge 是 \(q(x_s\mid x_t, x_0)\),给出 closed-form 形式(masked 与 uniform 都适用)。

CDLM 训练一个时间条件 denoiser \(f_\theta(x_t, t)\),强制要求其在 \((x_t, t)\) 处的预测和在 \((x_s, s)\) 处的预测一致,其中 \(x_s\sim q(x_s\mid x_t, x_0)\) 是通过 closed-form bridge 采样得到的"中间跳一步"状态。这等价于:从 \(x_t\) 直接预测 \(x_0\) ≡ 先经 bridge 跳到 \(x_s\),再从 \(x_s\) 预测 \(x_0\)——通过长短路径同时训练,模型学到可靠的 long-range transitions。

关键设计

  1. Multi-Path Discrete Consistency (MPDC,核心原则):

    • 功能:替代连续 consistency 中"沿 PF-ODE 一致"的失败假设,定义离散域的可执行 consistency 目标。
    • 核心思路:从一个 \((x_0, t, s)\) 三元组出发——\(x_0\sim p_{\text{data}}\)\(x_t\sim q(x_t\mid x_0)\)\(x_s\sim q(x_s\mid x_t, x_0)\)。MPDC 损失要求 \(f_\theta(x_t, t)\)\(f_\theta(x_s, s)\) 在期望上一致(在分布意义下匹配,而非点对点)。这种 distributional consistency 对应"贝叶斯角度的 path equivalence"——任何 valid bridge 都是目标的合法 sufficient statistic,所以 denoiser 在 bridge 起点和终点的预测分布必须相等。
    • 设计动机:在没有唯一路径的世界里,"在路径上点对点一致"是 ill-defined 的;改用"在所有路径上分布一致"既是数学上正确的弱化,也充分利用了离散扩散自带的解析 bridge 族。Few-step generation 自然涌现——因为长路径 (multi-step) 和短路径 (一步 jump) 都在训练中被覆盖,模型不需要 multi-stage distillation 单独学短路径。
  2. Teacher-free 单阶段训练 + Closed-form Bridge 采样:

    • 功能:完全无需教师模型,从头训练即可获得 few-step 生成能力。
    • 核心思路:每个 batch 采 \(x_0\sim p_{\text{data}}\),随机抽 \(0\le s<t\le 1\),按 closed-form bridge \(q(x_s\mid x_t, x_0)\) 直接采样 \(x_s, x_t\),然后用 MPDC 损失更新 \(f_\theta\)。由于 bridge 是解析的,采样代价仅是几次 categorical 抽样,没有任何额外神经网络前向。这区别于 SDTT / DUO+DCD 等两阶段方法——他们必须先训好 base 再用 base 作 teacher 蒸馏,CDLM 完全跳过了 teacher 训练。
    • 设计动机:consistency model 在连续域常用 EMA self-teacher 或独立 teacher 引导稳定性;这些 trick 在离散域也能加,但 CDLM 证明在 MPDC 框架下 even 单纯 self-prediction loss 就能稳定收敛,因为 closed-form bridge 提供了无偏的目标方向,不需要外部蒙特卡洛估计。
  3. 统一现有方法的视角 + 通用 corruption support:

    • 功能:CDLM 框架在不同 corruption 与超参极限下退化为各类现有方法,证明这是一个"母模型"。
    • 核心思路:作者形式化论证以下方法都是 CDLM 的特例或近似——(i) 标准 masked diffusion 是 \(t=s+\Delta t\) 极限;(ii) continuous consistency 是 PF-ODE 极限(连续放松);(iii) progressive distillation / shortcut models 是 bridge 的某种粗略 coupling;(iv) 两阶段离散 distillation(SDTT、DUO+DCD)是用 learned teacher 替代 closed-form bridge。同时 CDLM 不局限于 masked diffusion——任何 corruption family(uniform、edit-based 等)只要其 posterior bridge 有 closed-form 都适用。
    • 设计动机:用一个 unifying lens 把分散的 baselines 串起来,既是理论贡献也是实践指导——告诉社区"不需要再为 mask 设计专用 distillation 流程,所有方法都是同一原则的不同投影"。

损失函数 / 训练策略

  • 主损失:MPDC consistency loss,要求 \(f_\theta(x_t, t) \approx f_\theta(x_s, s)\) in expectation;具体实现是 cross-entropy 或 KL 形式(论文未在 method section 展开,但属标准 consistency 形式);
  • 训练数据:standard 文本语料(OpenWebText、LM1B 量级);
  • 关键:单阶段、teacher-free,无 EMA、无 teacher checkpoint、无 multi-stage curriculum;
  • 同时支持 Masked CDLM (MCDLM) 与 Uniform CDLM (UCDLM);MCDLM-PPLOptimized 变体在 perplexity 上进一步优化。

实验关键数据

主实验(基于 Fig. 2 unconditional generation perplexity vs steps)

模型类别 代表模型 关键现象
Base MDLM MDLM (Sahoo 2024) 需要数百步达到合理 perplexity
Base DUO DUO (Sahoo 2025) 与 MDLM 同量级
Distilled MDLM SDTT (Deschenaux 2025) 多阶段,少步数下表现好
Distilled DUO DUO+DCD (Sahoo 2025) 多阶段,greedy sampler 下 entropy 偏低(3.9)暗示 diversity 差
Base CDLM (本文) MCDLM-PPLOptimized 全步数下 base 模型 SOTA,多数步数下击败 distilled 模型且保持相近 entropy
Distilled CDLM distilled MCDLM distilled 模型中 SOTA

消融实验

配置 关键效果 说明
2D moons toy(Fig. 1) MDLM 需 10+ 步、CDLM 2-3 步 直观展示 few-step 优势
MCDLM vs UCDLM 都有效,MCDLM 在 PPLOptimized 设置下更强 验证 framework 对不同 corruption 通用
MCDLM-PPLOptimized vs SDTT / DUO+DCD 多数步数胜过 distilled 证明单阶段可击败多阶段
Distilled CDLM 比 distilled baseline 更强 + 更高 diversity distillation 可叠加但非必需
相对 AR 加速比 最高 \(32\times\) speedup 兑现 DLM 的并行承诺

关键发现

  • CDLM base 即可击败 distilled baseline:MCDLM-PPLOptimized 这一单阶段、teacher-free 的 base 模型,在多数 sampling step 下超过 SDTT、DUO+DCD 这种多阶段蒸馏模型——说明 distillation 不是 few-step 必要条件,正确的训练目标是核心。
  • DUO+DCD 的 entropy 异常:greedy sampler 下 entropy 仅 3.9,远低于其他模型,暗示其 diversity 收缩严重;CDLM 保持相近 entropy 同时 perplexity 更低,证明加速没有以牺牲多样性为代价。
  • Few-step generation 是 emergent property:因为 MPDC 在训练时同时见过长短路径,模型自然学到 long-range transitions;不像 distillation 是"训练后强行压缩"。
  • 统一视角带来设计自由度:MCDLM / UCDLM 显示 framework 跨 corruption family 通用,未来研究者可在新 corruption(如 edit-based、Mark0v chain corruption)上直接套用 MPDC。
  • 最高 \(32\times\) over AR baseline:在保持 quality 的前提下,CDLM distilled 版相对 AR 模型实现 32 倍生成加速——首次让 DLM 在效率与质量上同时打平甚至超过 AR。

亮点与洞察

  • "找不到确定性路径就用解析随机路径族"是个深刻的方法论指导:很多机器学习问题(如离散 normalizing flow、graph diffusion)都有"连续版本可解析、离散版本失败"的尴尬;CDLM 给出的策略——找一个离散域天然存在的解析对象作为连续版本的替代——具有跨领域启发意义。
  • Posterior bridge 是被忽视的金矿:Austin 2021 早就给出 closed-form bridge,但社区只把它用在 ELBO 推导里;本文第一次把它当作"训练目标的核心采样工具"。这种"重新审视已知公式的新用途"是很优雅的研究范式。
  • Distributional consistency vs pointwise consistency:在连续域大家习惯了 pointwise(沿一条 ODE 路径),本文把它泛化到 distributional(在路径族上期望),这一概念可能反过来启发连续域的 consistency 改进。
  • 单阶段、teacher-free 的工程价值:训练 pipeline 显著简化——不用先训 base 再 distill、不用维护 teacher checkpoint、不用调 EMA decay——对开源社区复现和工业部署都友好。
  • 统一视角作为理论贡献:把 MDLM / continuous consistency / progressive distillation / SDTT / DUO+DCD 都说成是 MPDC 的特例,既是理论清洗也是路标——告诉社区"别再发明分散的 acceleration 技巧了"。

局限与展望

  • 未提供详细消融数字:论文摘要与 method section 主要展示 framework,具体在 LM1B / OpenWebText 的 perplexity 数字(如生成质量 vs 步数 vs MAUVE 的全表)应在主文 experiments section 详述,但 cache 中可见部分尚未涉及具体数值表,使得"全步数 SOTA"难以独立验证。
  • 依赖 corruption 的 closed-form bridge:虽然 masked / uniform 都支持,但更通用的 corruption(如 edit distance based、structured corruption)的 closed-form 可能不存在,限制 framework 的适用范围。
  • DUO+DCD 在 greedy 下 entropy 偏低暗示 diversity-quality trade-off 难解:CDLM 虽然 entropy 更平衡,但论文未充分讨论 sampling 策略(greedy vs nucleus)对 CDLM 自身的影响。
  • 缺与 AR baseline 的语义质量对比:32× 加速很吸引人,但生成内容的下游任务(如 QA、reasoning)质量与 AR 对比未在 abstract / intro 提及;可能在主文后段,但 cache 未涵盖。
  • 训练计算开销未报告:单阶段虽简化 pipeline,但 MPDC loss 需要同时见短路径和长路径,是否增加 wall-clock training time 未明确。

相关工作与启发

  • vs MDLM (Sahoo 2024):CDLM 的 base 模型 train 出来后性能 dominates MDLM,证明 MPDC loss 比标准 MDLM ELBO 在 sampling efficiency 上更优。
  • vs Continuous Consistency Models (Song 2023):思想直接对应,但解决了"离散域无 PF-ODE"的根本难题;本文相当于把 Song 2023 的成功在离散域复刻。
  • vs SDTT / DUO+DCD(两阶段 distillation):CDLM 是单阶段对应物,证明 distillation 是 MPDC 的某种近似;CDLM 又可在其基础上再 distill 进一步压步数。
  • vs Progressive Distillation / Shortcut Models:这些都是连续域 acceleration trick,CDLM 把它们重新解读为 bridge consistency 的特殊情形。
  • vs AR Language Models:CDLM distilled 实现 32× 加速,是 DLM 第一次有真实 wall-clock 优势的工作之一。
  • 启发:MPDC 思路可迁移到 graph diffusion、structured prediction、sequence labeling 等任何"有 closed-form posterior 但无确定性 path"的离散生成场景。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "用 stochastic bridge family 替代不存在的 PF-ODE 来做 consistency" 是真正的概念创新,理论上漂亮、方法上清晰、工程上落地。
  • 实验充分度: ⭐⭐⭐ 在 unconditional / conditional 文本生成上验证 SOTA、消融跨 base/distilled、覆盖 MCDLM/UCDLM 两种 prior;但具体数值表在 cache 可见部分较少,扩展评估(如 zero-shot perplexity 跨域)也未覆盖。
  • 写作质量: ⭐⭐⭐⭐⭐ Intro 把"为什么离散 consistency 难"讲得透彻,统一视角部分把社区分散方法收归一处,可读性极强。
  • 价值: ⭐⭐⭐⭐⭐ 第一次让单阶段 teacher-free 训练出的 DLM 在 sampling efficiency 上同时压制 AR 和多阶段 distillation,对 DLM 走向实用是关键一步;framework 通用,未来可被作为 baseline 长期引用。