Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner¶

会议: ICML 2026
arXiv: 2510.03206
代码: https://github.com/zhouc20/CCDD (有)
领域: 扩散语言模型 / 隐式推理 / 多模态扩散
关键词: Diffusion LM、Latent Reasoning、连续-离散联合扩散、Looped Transformer、CFG

一句话总结¶

本文从表达力与可训练性两个维度系统比较连续扩散、离散掩码扩散、looped transformer，证明"连续扩散"在表达力上严格强于离散扩散并能模拟 looped transformer，但实际性能受限于解码与表征空间；据此提出 CCDD（Coevolutionary Continuous Discrete Diffusion）——在离散 token 空间和预训练 LLM 的上下文嵌入空间上同时扩散，由单一模型联合去噪，在 LM1B/OWT 上比 MDLM 困惑度降 25-35%，并以仅 8 步采样超过 MDLM 256 步效果。

研究背景与动机¶

领域现状：语言建模目前主流是自回归 LLM；非自回归路线分两支：连续扩散语言模型（CDM，SDE/PF-ODE，早期但弱）与离散扩散语言模型（DDM，尤其是 masked 扩散如 MDLM/SEDD，近期反超 CDM）。同时还有"隐式推理"路线：looped transformer（LT）和 continuous CoT，理论上能突破 transformer 在 \(\mathsf{TC^0}\) 的表达力上限。

现有痛点：(1) LT 理论强但缺中间监督，rollout 深度偏离训练时严重 OOD，难以实用；(2) CDM 理论上可以更强，但实测被 DDM 反超，作者认为是"决策空间过大、嵌入空间不佳、解码组合复杂"的三重训练性问题；(3) masked DDM 虽然 trainable，但每步把 logits 量化成 token，丢失了跨步的不确定性记忆，且失去自纠错能力。

核心矛盾：表达力上限 ↔ 实际可训练性的根本 trade-off。连续表征能保留完整信息利于推理，但难以训练并解码；离散表征训练目标清晰但信息瓶颈。

本文目标：在不放弃任何一方的前提下，构造一个同时具备 (a) 连续 CDM 的高表达力（涵盖 LT），(b) 离散 DDM 的良好可训练性，(c) 预训练 LLM 嵌入的语义先验，(d) 灵活 NFE 采样的统一框架。

切入角度：把"语言扩散"重新定义在 \(\mathcal{X} \times \mathcal{Z}\) 的联合多模态空间上——离散 token 提供易解码的"骨架"，预训练 LLM 的上下文嵌入提供平滑、信息丰富的"血肉"。两套噪声并行注入，一个网络同时去噪。

核心 idea：用"离散 token 扩散 + 连续上下文嵌入扩散"的联合 CTMC×SDE 过程做语言建模，让连续部分负责跨步的潜在推理记忆，离散部分负责高置信解码。

方法详解¶

整体框架¶

CCDD 由三层组成： 1. 前向过程：对清洁数据 \((x_0, z_0)\) 同时施加两路独立噪声——\(x_t \sim \text{Cat}(\eta_t x_0 + (1-\eta_t)\pi_t)\)（masked 或 uniform CTMC）和 \(z_t \sim \mathcal{N}(\alpha_t z_0, \sigma_t^2 I)\)（VP-SDE）； 2. 反向过程：单个网络 \(f_\theta(x_t, z_t, t)\) 同时输入两路噪声态，分别输出 token logits 和 embedding 预测 \(\hat{x}_{0,\theta}, \hat{z}_{0,\theta}\)，但根据各自模态规则独立更新：DDPM/DDIM 给 \(z\)，Bayes 后验 (8) 给 \(x\)； 3. 嵌入空间选择：\(z\) 不是新学的 embedding，而是用 Qwen3-Embedding-0.6B 倒数几层的上下文嵌入（hidden dim=32 归一化后），相当于把预训练 LLM 的语义注入扩散过程，并作为 representation guidance 加速训练收敛。

最终训练损失是连续与离散 ELBO 的加权和：\(\mathcal{L}_{\text{CCDD}} = \gamma_{\text{cont}} \mathcal{L}_{\text{cont}} + \gamma_{\text{disc}} \mathcal{L}_{\text{disc}}\)。

关键设计¶

联合连续-离散扩散过程（Joint CTMC × SDE）:
- 功能：让模型在每一步既看到"离散 token 当前状态"也看到"连续语义当前状态"，保留全程的概率历史，同时享受离散标签的强监督。
- 核心思路：前向核 \(q_t(x_t,z_t|x_0,z_0) = q_t^{\text{disc}}(x_t|x_0) q_t^{\text{cont}}(z_t|z_0)\) 完全可分；反向核 \(p_\theta(x_s, z_s | x_t, z_t) = p_\theta^{\text{disc}}(x_s|x_t,z_t) p_\theta^{\text{cont}}(z_s|x_t,z_t)\) 在因式分解形式下仍允许每个 factor 同时依赖两个输入（Remark 4.1）。作者证明这种"前向独立 + 反向条件耦合"的方案与完全耦合反向核在步长 \(\to 0\) 时表达力渐近等价（Theorem B.19），却大大简化了参数化。
- 设计动机：让连续路径承担"跨步记忆/计划"——保留 logit 几何而不是每步量化（Lemma B.9 证明 DDM 的"logits→sample→embed"是硬信息瓶颈）；让离散路径承担"高置信解码"——避免 CDM 从连续空间反解 token 的组合爆炸；前向因式分解保证 noising 简单，反向条件耦合保证表达力。
预训练 LLM 上下文嵌入作为连续空间（Contextualized Embedding Space）:
- 功能：用一个"易生成、可解码、有语义"的连续目标空间，规避 CDM 三大训练性问题。
- 核心思路：把 Qwen3-Embedding 的上下文嵌入冻结作为 \(z_0\) 的来源。论文在 Figure 2 的关键消融里对比了 0-th 层（接近 token-wise，纯查表嵌入）vs 第 28 层（充分上下文化）作为生成目标——前者重建 cross-entropy 最低（容易解码）但 MSE 最高（难生成），后者反之；中间层（如 12-th, 20-th）在两者间取得平衡。最终选取 contextualized 层作为 \(z\) 的目标空间。Table 1 还系统比较了 simplex / token-wise \(\mathbb{R}^d\) / contextualized \(\mathbb{R}^d\) 三种生成空间，结论是 contextualized 在维度、平滑度、解码歧义上综合最优（虽然解码歧义更高，但可以靠离散分支兜底）。
- 设计动机：作者通过 Proposition E.1 证明 token-wise embedding 维度 \(d \le V\) 表达力不超过 simplex，且生成目标是离散的码本集合，对 CDM 极不友好；simplex 又面临高维硬约束。Contextualized embedding 既提供了平滑的生成目标，又携带了预训练 LLM 的语义先验，作为"代理 representation guidance"（与 REPA、Yu 2024 等同源思路）加速收敛——实验显示 CCDD 仅需 40k 步就达到 MDLM 1000k 步的 PPL，训练加速 25×。
表征引导的 Classifier-Free Guidance（Representation-CFG）+ 多架构选择:
- 功能：把连续 \(z\) 视作"自生成的表征条件"，在推理时通过 CFG 调节其对 token 生成的影响强度，实现质量-效率灵活权衡。
- 核心思路：训练时以概率 \(p_{\text{drop}}\) 把 \(z_t\) 整体置零，让模型同时学到 conditional (\(z\) in) 和 unconditional (\(z\) 全零) 两种 forward；采样时 \(\text{logits} = w \cdot \text{logits}_c + (1-w) \cdot \text{logits}_\phi\)，其中 \(w\) 是 guidance 强度。架构端给出三个选择：(a) MDiT 无额外参数，把 \(x_t, z_t\) embedding 直接相加进 DiT；(b) MMDiT 借鉴 MM-DiT 双流交叉注意，参数翻倍但效果最好；(c) MoEDiT 用 MoE 路由不同模态到专家，参数膨胀小但 FLOPs 利用率高。
- 设计动机：CFG 把"连续推理"显式地变成可控强度的引导信号；多架构选择让不同 compute 预算的用户都有合适方案——MDiT 实现"零额外参数也能受益于联合扩散"，MMDiT 实现"参数换性能"，MoEDiT 实现"性价比最优"。

损失函数 / 训练策略¶

损失为两模态加权和；架构基于 SEDD 的 DiT 改造加 rotary embedding；LM1B 序列长 128，OWT 序列长 512，1M 步 batch 512（33B / 131B tokens）。Qwen-2 tokenizer 与 GPT-2 tokenizer 不能直接比较 PPL，所以基线统一用 Qwen-2 重训。Hidden dim 取 32（与 Qwen3-Embedding 一致），\(x_0\)-prediction 参数化。

实验关键数据¶

主实验¶

在 LM1B 和 OWT 上比较 PPL，参数量基本对齐 MDLM 92.1M baseline：

数据集	模型	参数	训练 tokens	Val PPL ↓	相对 MDLM
LM1B	MDLM (reimpl.)	92.1M	33B	≤39.17	—
LM1B	CCDD-MDiT w/ Qwen3	92.1M	33B	≤29.22	-25.4%
LM1B	CCDD-MoEDiT w/ Qwen3	104M	33B	≤28.50	-27.2%
LM1B	CCDD-MMDiT w/ Qwen3	216M	33B	≤25.76	-34.2%
OWT (Qwen-2)	MDLM (reimpl.)	92.1M	131B	≤33.78	—
OWT (Qwen-2)	CCDD-MoEDiT w/ Qwen3	104M	131B	≤21.90	-35.2%
OWT (GPT-2)	MDLM (reimpl.)	92.1M	131B	≤27.39	—
OWT (GPT-2)	CCDD-MoEDiT w/ RoBERTa	104M	131B	≤24.56	-10.3%
OWT (GPT-2)	GIDD+ (reimpl.)	92.1M	131B	≤25.82	-5.7%

在 Sudoku / 3-SAT / Countdown 三个复杂推理任务上 6M 小模型对比：

任务	GPT2(6M)	Llama-7B	MDM(20 步)	LT(2 层)	LT(3 层)	CCDD(2 步)	CCDD(3 步)
Sudoku	16.2	27.1	99.9	100.0	100.0	100.0	100.0
3-SAT	73.1	—	87.0	91.3	—	91.9	—
Countdown	31.9	41.1	52.0	60.6	68.2	67.8	73.7

消融实验¶

配置	Val PPL / 指标	说明
Qwen3-Embedding layer 0（token-wise）	最小 token CE，最大 representation MSE	易解码但难生成
Qwen3-Embedding layer 28（contextualized）	最大 token CE，最小 representation MSE	易生成但需 token 分支兜底
Qwen3-Embedding 中间层	两个 loss 都中等	取得平衡，最终用此配置
CCDD w=0 (joint)	Gen NLL 9.06	已超 MDLM 9.19
CCDD w=1 (discrete-only forward)	Gen NLL 8.38	CFG 显著提升
CCDD w=1.5	Gen NLL 8.25	推理时 guidance 加强进一步提升
CCDD 8 步采样	优于 MDLM 256 步	16× 采样加速

关键发现¶

少步采样的颠覆性优势：CCDD 仅 8 步就能超过 MDLM 256 步——这是连续部分能建模 joint distribution、支持 ODE 采样的直接红利，而 DDM 只能 SDE 采样所以步数大才能均匀。
训练效率 25×：在 LM1B 上，CCDD 40k 步达到 MDLM 1000k 步的 PPL，预训练 LLM 嵌入起到了显著的表征正则化作用。
推理任务上 CCDD 2 步 ≈ LT 最佳深度：Sudoku/3-SAT 已被 CCDD 2 步打满，Countdown 上 CCDD 3 步反超 LT 3 层最高分，验证了"连续路径承担跨步推理"的理论假设。
架构敏感性：MDiT（零额外参数）已能拿到 25% PPL 下降，说明性能主要来自联合扩散的设计本身而非参数堆叠；MMDiT/MoEDiT 是锦上添花。

亮点与洞察¶

统一视角："CDM ⊋ DDM、CDM 模拟 LT"两条理论结论把过去三条独立路线（continuous diffusion / discrete diffusion / looped transformer）放在同一表达力阶梯上，给出了清晰的方向感——continuous 是上限，问题在于可训练性。
可训练性的三因素分解（决策空间大、嵌入差、解码组合复杂）非常深刻，直接指导了用预训练 LLM 上下文嵌入解决"嵌入差"、用离散分支解决"解码难"，逻辑链条罕见地干净。
CFG-as-representation-guidance：把"连续表征"和"分类自由引导"两件事缝合在一起——训练时随机置零、推理时调强，这种范式可以迁移到任何"主模态 + 辅助模态条件生成"的任务（如代码生成 + AST，分子生成 + 图）。
8 步打 256 步比 PPL 提升更有产业意义：扩散 LM 落地的最大瓶颈是采样慢，CCDD 给出了一条系统性的破局路径——靠表达力更强的连续分支减少 NFE，而不是靠新的 sampler。
理论与实验密接：Theorem 3.2、Prop 3.4 给的是"为何要走这条路"，Figure 2 给的是"为何选 contextualized 层"，Table 6 推理任务给的是"理论预言被验证"，整篇论文形成完整闭环，很少见这么 self-consistent 的扩散语言模型工作。

局限与展望¶

依赖外部预训练嵌入：性能强度强烈绑定 Qwen3-Embedding 质量，换更小或更弱的 encoder（RoBERTa）增益就只剩 ~10% 而非 35%；如果目标场景没有合适的预训练嵌入器（小语种、特殊领域），这条路线退化严重。
实验规模仍偏小：92M-216M 参数远小于现代 LLM；论文只在 LM1B/OWT 这种 1B-级数据集上预训练，scaling laws 未做，3.2B/7B 量级的表现不明。
联合扩散在长序列上的开销：尽管理论与实验都强调高效，但联合输入两路状态、CFG 需要两次 forward，单步成本约 2×；论文未给出与 AR LLM 在同 FLOPs 下的端到端 wall-clock 对比。
离散自纠错能力损失：masked DDM 已牺牲自纠错换 trainability，CCDD 同样使用 masked 离散过程，作者未讨论是否能用 uniform DDM 配合连续分支重获自纠错。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 联合 CTMC × SDE 扩散是范式级新结构，并把多条独立路线统一在表达力-训练性框架下。
实验充分度: ⭐⭐⭐⭐ 两个数据集 + 三类架构 + CFG + 复杂推理任务的横向纵向比较完整，但缺 scaling 实验和 wall-clock 对比。
写作质量: ⭐⭐⭐⭐⭐ 从动机到理论到方法到实验逻辑闭环，Figure 1/2/3 与 Table 1/6 高度自洽，可读性极佳。
价值: ⭐⭐⭐⭐⭐ 给出"扩散语言模型如何超越 AR LLM 做推理"的可行路径，少步采样的实践意义巨大，预计会成为后续 DLM 工作的标准 baseline。