Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner¶
会议: ICML 2026
arXiv: 2510.03206
代码: https://github.com/zhouc20/CCDD (有)
领域: 扩散语言模型 / 隐式推理 / 多模态扩散
关键词: Diffusion LM、Latent Reasoning、连续-离散联合扩散、Looped Transformer、CFG
一句话总结¶
本文从表达力与可训练性两个维度系统比较连续扩散、离散掩码扩散、looped transformer,证明"连续扩散"在表达力上严格强于离散扩散并能模拟 looped transformer,但实际性能受限于解码与表征空间;据此提出 CCDD(Coevolutionary Continuous Discrete Diffusion)——在离散 token 空间和预训练 LLM 的上下文嵌入空间上同时扩散,由单一模型联合去噪,在 LM1B/OWT 上比 MDLM 困惑度降 25-35%,并以仅 8 步采样超过 MDLM 256 步效果。
研究背景与动机¶
领域现状:语言建模目前主流是自回归 LLM;非自回归路线分两支:连续扩散语言模型(CDM,SDE/PF-ODE,早期但弱)与离散扩散语言模型(DDM,尤其是 masked 扩散如 MDLM/SEDD,近期反超 CDM)。同时还有"隐式推理"路线:looped transformer(LT)和 continuous CoT,理论上能突破 transformer 在 \(\mathsf{TC^0}\) 的表达力上限。
现有痛点:(1) LT 理论强但缺中间监督,rollout 深度偏离训练时严重 OOD,难以实用;(2) CDM 理论上可以更强,但实测被 DDM 反超,作者认为是"决策空间过大、嵌入空间不佳、解码组合复杂"的三重训练性问题;(3) masked DDM 虽然 trainable,但每步把 logits 量化成 token,丢失了跨步的不确定性记忆,且失去自纠错能力。
核心矛盾:表达力上限 ↔ 实际可训练性的根本 trade-off。连续表征能保留完整信息利于推理,但难以训练并解码;离散表征训练目标清晰但信息瓶颈。
本文目标:在不放弃任何一方的前提下,构造一个同时具备 (a) 连续 CDM 的高表达力(涵盖 LT),(b) 离散 DDM 的良好可训练性,(c) 预训练 LLM 嵌入的语义先验,(d) 灵活 NFE 采样的统一框架。
切入角度:把"语言扩散"重新定义在 \(\mathcal{X} \times \mathcal{Z}\) 的联合多模态空间上——离散 token 提供易解码的"骨架",预训练 LLM 的上下文嵌入提供平滑、信息丰富的"血肉"。两套噪声并行注入,一个网络同时去噪。
核心 idea:用"离散 token 扩散 + 连续上下文嵌入扩散"的联合 CTMC×SDE 过程做语言建模,让连续部分负责跨步的潜在推理记忆,离散部分负责高置信解码。
方法详解¶
整体框架¶
CCDD 由三层组成: 1. 前向过程:对清洁数据 \((x_0, z_0)\) 同时施加两路独立噪声——\(x_t \sim \text{Cat}(\eta_t x_0 + (1-\eta_t)\pi_t)\)(masked 或 uniform CTMC)和 \(z_t \sim \mathcal{N}(\alpha_t z_0, \sigma_t^2 I)\)(VP-SDE); 2. 反向过程:单个网络 \(f_\theta(x_t, z_t, t)\) 同时输入两路噪声态,分别输出 token logits 和 embedding 预测 \(\hat{x}_{0,\theta}, \hat{z}_{0,\theta}\),但根据各自模态规则独立更新:DDPM/DDIM 给 \(z\),Bayes 后验 (8) 给 \(x\); 3. 嵌入空间选择:\(z\) 不是新学的 embedding,而是用 Qwen3-Embedding-0.6B 倒数几层的上下文嵌入(hidden dim=32 归一化后),相当于把预训练 LLM 的语义注入扩散过程,并作为 representation guidance 加速训练收敛。
最终训练损失是连续与离散 ELBO 的加权和:\(\mathcal{L}_{\text{CCDD}} = \gamma_{\text{cont}} \mathcal{L}_{\text{cont}} + \gamma_{\text{disc}} \mathcal{L}_{\text{disc}}\)。
关键设计¶
-
联合连续-离散扩散过程(Joint CTMC × SDE):
- 功能:让模型在每一步既看到"离散 token 当前状态"也看到"连续语义当前状态",保留全程的概率历史,同时享受离散标签的强监督。
- 核心思路:前向核 \(q_t(x_t,z_t|x_0,z_0) = q_t^{\text{disc}}(x_t|x_0) q_t^{\text{cont}}(z_t|z_0)\) 完全可分;反向核 \(p_\theta(x_s, z_s | x_t, z_t) = p_\theta^{\text{disc}}(x_s|x_t,z_t) p_\theta^{\text{cont}}(z_s|x_t,z_t)\) 在因式分解形式下仍允许每个 factor 同时依赖两个输入(Remark 4.1)。作者证明这种"前向独立 + 反向条件耦合"的方案与完全耦合反向核在步长 \(\to 0\) 时表达力渐近等价(Theorem B.19),却大大简化了参数化。
- 设计动机:让连续路径承担"跨步记忆/计划"——保留 logit 几何而不是每步量化(Lemma B.9 证明 DDM 的"logits→sample→embed"是硬信息瓶颈);让离散路径承担"高置信解码"——避免 CDM 从连续空间反解 token 的组合爆炸;前向因式分解保证 noising 简单,反向条件耦合保证表达力。
-
预训练 LLM 上下文嵌入作为连续空间(Contextualized Embedding Space):
- 功能:用一个"易生成、可解码、有语义"的连续目标空间,规避 CDM 三大训练性问题。
- 核心思路:把 Qwen3-Embedding 的上下文嵌入冻结作为 \(z_0\) 的来源。论文在 Figure 2 的关键消融里对比了 0-th 层(接近 token-wise,纯查表嵌入)vs 第 28 层(充分上下文化)作为生成目标——前者重建 cross-entropy 最低(容易解码)但 MSE 最高(难生成),后者反之;中间层(如 12-th, 20-th)在两者间取得平衡。最终选取 contextualized 层作为 \(z\) 的目标空间。Table 1 还系统比较了 simplex / token-wise \(\mathbb{R}^d\) / contextualized \(\mathbb{R}^d\) 三种生成空间,结论是 contextualized 在维度、平滑度、解码歧义上综合最优(虽然解码歧义更高,但可以靠离散分支兜底)。
- 设计动机:作者通过 Proposition E.1 证明 token-wise embedding 维度 \(d \le V\) 表达力不超过 simplex,且生成目标是离散的码本集合,对 CDM 极不友好;simplex 又面临高维硬约束。Contextualized embedding 既提供了平滑的生成目标,又携带了预训练 LLM 的语义先验,作为"代理 representation guidance"(与 REPA、Yu 2024 等同源思路)加速收敛——实验显示 CCDD 仅需 40k 步就达到 MDLM 1000k 步的 PPL,训练加速 25×。
-
表征引导的 Classifier-Free Guidance(Representation-CFG)+ 多架构选择:
- 功能:把连续 \(z\) 视作"自生成的表征条件",在推理时通过 CFG 调节其对 token 生成的影响强度,实现质量-效率灵活权衡。
- 核心思路:训练时以概率 \(p_{\text{drop}}\) 把 \(z_t\) 整体置零,让模型同时学到 conditional (\(z\) in) 和 unconditional (\(z\) 全零) 两种 forward;采样时 \(\text{logits} = w \cdot \text{logits}_c + (1-w) \cdot \text{logits}_\phi\),其中 \(w\) 是 guidance 强度。架构端给出三个选择:(a) MDiT 无额外参数,把 \(x_t, z_t\) embedding 直接相加进 DiT;(b) MMDiT 借鉴 MM-DiT 双流交叉注意,参数翻倍但效果最好;(c) MoEDiT 用 MoE 路由不同模态到专家,参数膨胀小但 FLOPs 利用率高。
- 设计动机:CFG 把"连续推理"显式地变成可控强度的引导信号;多架构选择让不同 compute 预算的用户都有合适方案——MDiT 实现"零额外参数也能受益于联合扩散",MMDiT 实现"参数换性能",MoEDiT 实现"性价比最优"。
损失函数 / 训练策略¶
损失为两模态加权和;架构基于 SEDD 的 DiT 改造加 rotary embedding;LM1B 序列长 128,OWT 序列长 512,1M 步 batch 512(33B / 131B tokens)。Qwen-2 tokenizer 与 GPT-2 tokenizer 不能直接比较 PPL,所以基线统一用 Qwen-2 重训。Hidden dim 取 32(与 Qwen3-Embedding 一致),\(x_0\)-prediction 参数化。
实验关键数据¶
主实验¶
在 LM1B 和 OWT 上比较 PPL,参数量基本对齐 MDLM 92.1M baseline:
| 数据集 | 模型 | 参数 | 训练 tokens | Val PPL ↓ | 相对 MDLM |
|---|---|---|---|---|---|
| LM1B | MDLM (reimpl.) | 92.1M | 33B | ≤39.17 | — |
| LM1B | CCDD-MDiT w/ Qwen3 | 92.1M | 33B | ≤29.22 | -25.4% |
| LM1B | CCDD-MoEDiT w/ Qwen3 | 104M | 33B | ≤28.50 | -27.2% |
| LM1B | CCDD-MMDiT w/ Qwen3 | 216M | 33B | ≤25.76 | -34.2% |
| OWT (Qwen-2) | MDLM (reimpl.) | 92.1M | 131B | ≤33.78 | — |
| OWT (Qwen-2) | CCDD-MoEDiT w/ Qwen3 | 104M | 131B | ≤21.90 | -35.2% |
| OWT (GPT-2) | MDLM (reimpl.) | 92.1M | 131B | ≤27.39 | — |
| OWT (GPT-2) | CCDD-MoEDiT w/ RoBERTa | 104M | 131B | ≤24.56 | -10.3% |
| OWT (GPT-2) | GIDD+ (reimpl.) | 92.1M | 131B | ≤25.82 | -5.7% |
在 Sudoku / 3-SAT / Countdown 三个复杂推理任务上 6M 小模型对比:
| 任务 | GPT2(6M) | Llama-7B | MDM(20 步) | LT(2 层) | LT(3 层) | CCDD(2 步) | CCDD(3 步) |
|---|---|---|---|---|---|---|---|
| Sudoku | 16.2 | 27.1 | 99.9 | 100.0 | 100.0 | 100.0 | 100.0 |
| 3-SAT | 73.1 | — | 87.0 | 91.3 | — | 91.9 | — |
| Countdown | 31.9 | 41.1 | 52.0 | 60.6 | 68.2 | 67.8 | 73.7 |
消融实验¶
| 配置 | Val PPL / 指标 | 说明 |
|---|---|---|
| Qwen3-Embedding layer 0(token-wise) | 最小 token CE,最大 representation MSE | 易解码但难生成 |
| Qwen3-Embedding layer 28(contextualized) | 最大 token CE,最小 representation MSE | 易生成但需 token 分支兜底 |
| Qwen3-Embedding 中间层 | 两个 loss 都中等 | 取得平衡,最终用此配置 |
| CCDD w=0 (joint) | Gen NLL 9.06 | 已超 MDLM 9.19 |
| CCDD w=1 (discrete-only forward) | Gen NLL 8.38 | CFG 显著提升 |
| CCDD w=1.5 | Gen NLL 8.25 | 推理时 guidance 加强进一步提升 |
| CCDD 8 步采样 | 优于 MDLM 256 步 | 16× 采样加速 |
关键发现¶
- 少步采样的颠覆性优势:CCDD 仅 8 步就能超过 MDLM 256 步——这是连续部分能建模 joint distribution、支持 ODE 采样的直接红利,而 DDM 只能 SDE 采样所以步数大才能均匀。
- 训练效率 25×:在 LM1B 上,CCDD 40k 步达到 MDLM 1000k 步的 PPL,预训练 LLM 嵌入起到了显著的表征正则化作用。
- 推理任务上 CCDD 2 步 ≈ LT 最佳深度:Sudoku/3-SAT 已被 CCDD 2 步打满,Countdown 上 CCDD 3 步反超 LT 3 层最高分,验证了"连续路径承担跨步推理"的理论假设。
- 架构敏感性:MDiT(零额外参数)已能拿到 25% PPL 下降,说明性能主要来自联合扩散的设计本身而非参数堆叠;MMDiT/MoEDiT 是锦上添花。
亮点与洞察¶
- 统一视角:"CDM ⊋ DDM、CDM 模拟 LT"两条理论结论把过去三条独立路线(continuous diffusion / discrete diffusion / looped transformer)放在同一表达力阶梯上,给出了清晰的方向感——continuous 是上限,问题在于可训练性。
- 可训练性的三因素分解(决策空间大、嵌入差、解码组合复杂)非常深刻,直接指导了用预训练 LLM 上下文嵌入解决"嵌入差"、用离散分支解决"解码难",逻辑链条罕见地干净。
- CFG-as-representation-guidance:把"连续表征"和"分类自由引导"两件事缝合在一起——训练时随机置零、推理时调强,这种范式可以迁移到任何"主模态 + 辅助模态条件生成"的任务(如代码生成 + AST,分子生成 + 图)。
- 8 步打 256 步比 PPL 提升更有产业意义:扩散 LM 落地的最大瓶颈是采样慢,CCDD 给出了一条系统性的破局路径——靠表达力更强的连续分支减少 NFE,而不是靠新的 sampler。
- 理论与实验密接:Theorem 3.2、Prop 3.4 给的是"为何要走这条路",Figure 2 给的是"为何选 contextualized 层",Table 6 推理任务给的是"理论预言被验证",整篇论文形成完整闭环,很少见这么 self-consistent 的扩散语言模型工作。
局限与展望¶
- 依赖外部预训练嵌入:性能强度强烈绑定 Qwen3-Embedding 质量,换更小或更弱的 encoder(RoBERTa)增益就只剩 ~10% 而非 35%;如果目标场景没有合适的预训练嵌入器(小语种、特殊领域),这条路线退化严重。
- 实验规模仍偏小:92M-216M 参数远小于现代 LLM;论文只在 LM1B/OWT 这种 1B-级数据集上预训练,scaling laws 未做,3.2B/7B 量级的表现不明。
- 联合扩散在长序列上的开销:尽管理论与实验都强调高效,但联合输入两路状态、CFG 需要两次 forward,单步成本约 2×;论文未给出与 AR LLM 在同 FLOPs 下的端到端 wall-clock 对比。
- 离散自纠错能力损失:masked DDM 已牺牲自纠错换 trainability,CCDD 同样使用 masked 离散过程,作者未讨论是否能用 uniform DDM 配合连续分支重获自纠错。
相关工作与启发¶
- vs MDLM / SEDD(masked DDM):本文证明这类模型在表达力上严格弱于 CDM,靠加一个连续分支既保留它们的可训练性又突破上限。
- vs Continuous DLM(SED, Score Diffusion):作者诊断出 CDM 失败的真正原因不是"理论不行"而是"嵌入空间不行",指出用预训练 LLM 嵌入是正解。
- vs Looped Transformer / Universal Transformer:CDM 在原理上能模拟 LT 且自带中间监督,作者建议用 CDM 替代 LT 做隐式推理——给"latent reasoning"开辟了扩散派的新方向。
- vs DiT / MM-DiT / MoE:架构端直接搬运 DiT 系,是少有的把视觉扩散架构成功迁移到语言扩散且效果显著的工作。
- vs REPA / RCG(表征引导扩散):把"用预训练 encoder 表征作为扩散引导"这个视觉工作的核心思想成功移植到语言。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 联合 CTMC × SDE 扩散是范式级新结构,并把多条独立路线统一在表达力-训练性框架下。
- 实验充分度: ⭐⭐⭐⭐ 两个数据集 + 三类架构 + CFG + 复杂推理任务的横向纵向比较完整,但缺 scaling 实验和 wall-clock 对比。
- 写作质量: ⭐⭐⭐⭐⭐ 从动机到理论到方法到实验逻辑闭环,Figure 1/2/3 与 Table 1/6 高度自洽,可读性极佳。
- 价值: ⭐⭐⭐⭐⭐ 给出"扩散语言模型如何超越 AR LLM 做推理"的可行路径,少步采样的实践意义巨大,预计会成为后续 DLM 工作的标准 baseline。