ICLR 2026 Reasoning 潜空间推理扩散模型 Flow Matching VAE 思维 token 多样性引导测试时计算

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=z5cPEZ4n6i
代码: 待确认
领域: LLM 推理 / 潜空间扩散推理
关键词: 潜空间推理, 扩散模型, Flow Matching, VAE, 思维 token, 多样性引导, 测试时计算

一句话总结¶

LaDiR 用 VAE 把每个推理步骤压缩成一"块"连续的思维 token，再用块级潜空间扩散（flow matching）对这些 token 反复去噪精炼，让 LLM 在语义层面做可迭代修正与并行多样探索，同时在数学、代码、规划任务上一致超越自回归 / 离散扩散 / 潜空间推理基线。

研究背景与动机¶

领域现状：LLM 靠链式思维（CoT）展现推理能力，主流是自回归（AR）逐 token 解码；扩散语言模型近年也被引入文本生成，看重的是并行化与全局连贯。潜空间扩散（LD4LG、PLANNER 等）则把扩散放到文本自编码器的潜空间里，但这些工作几乎都只关心"流畅生成"。

现有痛点：① AR 的顺序生成天然无法回头改写早先 token，自我修正低效且困难；② 离散 CoT 只能生成一条线性思维链，限制了多样性、难以探索多个有效解；③ 离散扩散语言模型虽能并行，但本质只是把 [MASK] 转成离散文本 token，无法在语义层面做自我精炼；④ 已有潜空间推理方法（如 Coconut）在数学基准上甚至打不过 AR CoT 微调，存在潜空间塌缩、误差累积问题。

核心矛盾：表层 token 级的精炼 ≠ 深层语义级的推理修正——既要连续表示的表达力（可迭代精炼、可探索多样轨迹），又要保留可解释性和可控的推理步数。

本文目标：把扩散模型的迭代精炼能力真正用来"增强 LLM 的推理"，而非仅做流畅生成。

核心 idea：「语义级潜空间 + 块级扩散」——先用 β-VAE 把每个推理句子编码成一块连续思维 token，构建结构化、可解释的潜推理空间；再训练一个潜空间扩散模型对这些块逐块去噪，块内双向注意力、块间因果注意力；推理时通过加大初始噪声 + 多样性梯度引导，在一个 batch 内并行生成多条互相排斥的推理轨迹，最后自回归解码出文本答案。

方法详解¶

整体框架¶

LaDiR 把"推理"与"答题"解耦成两个组件、两阶段训练：(1) 一个 VAE 把 CoT 按句切块、每句编码成 \(L_b\) 个连续潜思维 token，构建语义潜空间；(2) 一个从同一预训练 LLM 初始化的潜空间扩散推理模型 \(f_\psi\)，用 flow matching 对潜块逐块去噪，再以 LM head 自回归生成最终答案文本。推理时从高斯噪声出发迭代去噪出潜块，遇到 <SOA> 特殊 token 即停止推理、转入答案生成。

flowchart LR
    Q[问题 Q] --> ENC
    subgraph VAE[阶段A: VAE 构建潜空间]
      ENC[LLM 编码器<br/>句子→块潜token Z] --> DEC[冻结 LLM 解码器<br/>重建文本]
    end
    Q --> RM
    subgraph RM[阶段B: 扩散推理模型 fψ]
      NOISE[高斯噪声] --> DENOISE[块级去噪<br/>块内双向/块间因果<br/>Flow Matching]
      DENOISE -->|多样性引导<br/>repulsion| DENOISE
      DENOISE --> SOA{<SOA>?}
      SOA -->|否, 下一块| DENOISE
      SOA -->|是| ANS[自回归解码答案 y]
    end

关键设计¶

1. 一句一块的结构化潜空间：用 β-VAE 把推理步骤编码成可解释的思维 token。 作者用前缀 "The answer is" 把数据切成 CoT \(c\) 与答案 \(y\)，再把 \(c\) 按句拆成 \(N\) 个块，每块 \(Z^{(b)}=\{z^{(b)}_1,\dots,z^{(b)}_{L_b}\}\)，使每个推理步骤在潜空间里被局部化。VAE 编码器从预训练 LLM 初始化并全参微调，配 \(L_b\) 个可学习 embedding，末层隐状态过两个线性投影得到均值方差并采样 \(Z^{(b)}\sim\mathcal{N}(\mu,\sigma^2)\)；解码器是冻结的预训练 LLM，条件于潜块重建文本。训练用 β-VAE 目标 \(L_{\beta\text{-VAE}}=\mathbb{E}_{q_\phi(z|x)}[-\log p_\theta(x|z)]+\beta\,\mathrm{KL}(q_\phi(z|x)\|p(z))\)，较大的 \(\beta\) 换更结构化的潜空间。为让潜空间平滑、抗扰，训练时还做两种增强：给潜 token 注入各向同性高斯噪声 \(z'^{(b)}_i=z^{(b)}_i+\eta_i,\ \eta_i\sim\mathcal{N}(0,k^2 I)\)（\(k=3\) 最佳），以及以 \(p=0.3\) 随机替换输入 token，逼编码器学到对改写/笔误不变的语义而非词形。

2. 块级潜空间扩散 + 混合注意力：把"思维链的因果性"装进去噪过程。 推理模型从同一 LLM 初始化，用 flow matching 学习对潜块去噪。Flow matching 在干净数据 \(z_0\) 与噪声 \(\epsilon\) 间构造插值路径 \(z_t=(1-t)z_0+t\epsilon\)，目标速度场 \(u^\star(z_t,t)=\epsilon-z_0\)，网络 \(u_\theta\) 最小化 \(L_{FM}=\mathbb{E}\|u_\theta(z_t,t)-u^\star(z_t,t)\|^2\)；推理时从 \(z_1\sim\mathcal{N}(0,I)\) 用 ODE 求解器 \(z_{t-\Delta t}=z_t-\Delta t\,u_\theta(z_t,t)\) 逐步还原。关键在注意力掩码 \(M\)：问题 \(Q\) 后用 <BOT>/<EOT> 包住每块，被预测块在 <BOT> 与首 token 间插入时间步 embedding；块内双向注意力让模型在 block size 定义的视野里整体地推理、捕捉局部依赖，块间严格因果让后面的步骤依赖前面、保持自回归式的逻辑顺序。这正是 AR（无法回头改）与全并行扩散（无因果）之间的折中。

3. 两阶段训练 + 答案/特殊 token 监督：把"答对"的信号反传到潜 token。 模型用同一 backbone 加 LM head 自回归预测答案，目标为交叉熵 \(L_{Ans}=-\sum_w \log p_\psi(y_w\mid q,Z^{(\le B)},y_{<w})\)；再加一个二分类头，在每个 <EOT> 处预测下一个是 <SOA> 还是 <BOT>，从而显式控制推理块数，损失 \(L_{Spec}=-\sum_{\tau}\log p_\psi(s_\tau\mid q,Z^{(\le B)})\)。总目标 \(L=\lambda_{FM}L_{FM}+\lambda_{Ans}L_{Ans}+\lambda_{Spec}L_{Spec}\)。阶段 1（teacher forcing） 用 VAE 编码器给出的 oracle 潜块作上下文；但推理时模型只能条件于自己生成的潜块，存在 train/inference 失配与误差累积，于是 阶段 2（rollout） 让模型从噪声自生成潜块 \(\tilde Z^{(1:B)}\)（去噪步数从 50 降到 10，仿 FlowGRPO），并在去噪轨迹上保留梯度，使答案监督直接反传塑造潜预测；同时保留 flow matching loss 以避免像无课程的 Coconut 那样潜空间塌缩。消融显示去掉阶段 2，数学平均 Pass@1 从 43.5 暴跌到 27.9。

4. 并行多样性引导：让一个 batch 内的轨迹互相排斥、探索不同解。 不同于 AR 顺序生成单条轨迹，LaDiR 在 batch 内并行生成多条互异轨迹。两个机制：① 加大初始噪声——首步用更大方差 \(\tilde\sigma^2\) 拓宽起点分布；② 多样性梯度引导——每个去噪步给 batch 内潜 token 加排斥力。先取 batch 内两两距离中位数作带宽 \(\sigma=\mathrm{median}_{i<j}\|z_i-z_j\|_2\)，排斥力场为 \(F(z_i)=\sum_{j\ne i}2\left(1-\frac{\|z_i-z_j\|^2}{\sigma^2}\right)\exp\!\left(-\frac{\|z_i-z_j\|^2}{\sigma^2}\right)(z_i-z_j)\)，并以随时间衰减的强度 \(\gamma_t=\gamma_{max}(t/T)\) 在去噪早期强、后期弱地施加。最终预测以类似 classifier-free guidance 的形式融合：\(\hat z_{t-1}=f_\psi(x_t,t,x)+\gamma_t F(z)\)。消融表明 \(\gamma_{max}=0.3\sim0.5\) 在多样性与准确率间最优，过强（\(\ge 1.0\)）会过度发散反伤准确率。

实验关键数据¶

主实验：数学推理（7 基准，LLaMA 3.1 8B；Pass@1 / Pass@100，平均）¶

方法	类别	Avg. P@1 / P@100
LLaDA CoT SFT	掩码扩散 8B	35.8 / 44.3
SFT (α=1)	AR CoT	39.3 / 47.1
Coconut	AR 潜推理	31.9 / 34.8
Discrete Latent	AR 潜推理	40.8 / 46.4
Soft Think	AR 潜推理	41.0 / 43.5
TaH+（此前最强）	AR 潜推理	42.0 / 45.5
LD4LG	潜空间扩散	15.7 / 21.7
PLANNER	潜空间扩散	13.6 / 20.3
LaDiR	潜空间扩散	43.5 / 52.0

P@1 比此前最强 TaH+ 高 1.5%，P@100 比 AR CoT SFT 高 6.1%（全基准最高），且远超此前只会流畅生成的潜空间扩散方法 LD4LG/PLANNER。

代码生成（Qwen3-8B-Base，Pass@1，平均）¶

方法	MBPP+	HumanEval+	Avg.
AR SFT	52.8	76.5	69.3
Soft Thinking	53.1	75.2	69.4
TaH+	56.5	79.3	71.8
Ouro 2.6B（循环潜推理）	66.6	70.7	74.0
LaDiR	59.5	84.2	74.5

同 backbone 下比 AR SFT 平均 +5.2%，HumanEval+ 高近 8%。

规划任务 Countdown（Pass@1 / Pass@100 / 多样性）¶

模型	CD-4 P@1	CD-4 Div.	CD-5 P@1	CD-5 P@100
LLaMA 8B SFT	46.7	3.0	8.9	15.4
LLaDA 8B SFT	51.2	5.4	34.4	45.2
MGDM（专用扩散）	91.5	3.2	46.6	70.4
LaDiR	76.6	7.3	38.5	75.2

CD-4 比 LLaMA SFT Pass@1 高 25%+、多样性最高；CD-5 比 AR Pass@1 高近 30%、P@100 高 30%+。

消融与关键发现¶

阶段 2 rollout 不可或缺：去掉后数学平均 P@1 43.5→27.9，验证它缓解误差累积。
多样性参数：初始噪声 1→2 同时提升多样性与准确率，过大（3）伤收敛；\(\gamma_{max}=0.3\sim0.5\) 最优。
迭代自我精炼：解码不同时间步可见潜块从"含算术错误的雏形"逐步被修正，\(t=0.25\) 起稳定收敛到正确答案——证明扩散确实在语义层做自我纠错。
自适应测试时计算：去噪步数 5→10 平均 +11.7 分，→30 再 +4.8，→50 共 +9.8，可灵活用算力换准确率。

亮点与洞察¶

把扩散的"迭代精炼"从像素/像 token 提升到"语义推理步"：解码中间时间步能看到推理被一步步纠错，是少见的可视化"思考过程"证据。
统一三种能力：连续潜空间（表达力）+ 块级因果扩散（逻辑顺序）+ VAE 解码（可解释性），一举补齐了过往潜推理/离散扩散各缺一角的短板。
多样性作为一等公民：用 batch 内排斥力 + classifier-free-guidance 式融合显式造多样轨迹，直接对应 Pass@100 与未来 RL post-training 所需的高 pass@k。
诚实对比：明确指出 Coconut 等在数学上打不过 AR SFT、LD4LG/PLANNER 在推理上崩溃，凸显"为推理而设计"与"为流畅而设计"的本质区别。

局限与展望¶

两组件两阶段、训练较重：VAE 与扩散模型分开训，还需 rollout 阶段保梯度，pipeline 比单一 AR 微调复杂。
测试时计算换准确率：迭代去噪 + 并行多样轨迹带来额外推理开销，延迟分析仅在附录，端到端效率与 AR 的权衡仍需更全面评估。
超参敏感：噪声尺度 \(k\)、初始方差 \(\tilde\sigma^2\)、\(\gamma_{max}\)、块大小 \(L_b\) 等需调，过强多样性会反伤准确率。
OOD 仍有短板：在 Olympia 等最难基准上提升有限（12.9 P@1），语义潜空间对超难证明题的泛化待加强。
展望：高 pass@k 暗示与 RL post-training 天然契合，是把潜空间扩散推理推向更强自我改进的明显方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把"语义级潜空间 + 块级因果扩散 + 多样性引导"系统性地用于增强 LLM 推理，明确区分于"为流畅生成"的潜空间扩散，范式上有开创性。
实验充分度: ⭐⭐⭐⭐ 覆盖数学（7）、代码（4）、规划三域共十余基准，含大量 AR/离散扩散/潜推理基线与关键消融；但延迟/效率分析多在附录，超难 OOD 仍偏弱。
写作质量: ⭐⭐⭐⭐ 动机递进清晰、图 1/图 2 把范式差异讲得直观，迭代精炼的解码示例很有说服力；公式与训练细节完整。
价值: ⭐⭐⭐⭐⭐ 在准确率、多样性、可解释性三轴同时改进，且高 pass@k 直指 RL post-training，为"超越自回归推理"提供了一条有原则、可落地的新路径。