Hierarchy Decoding: A Training-free Parallel Decoding Strategy for Diffusion Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZsIQUjQtdW
代码: https://github.com/inclusionAI/dInfer
领域: LLM 推理加速 / 扩散语言模型并行解码
关键词: diffusion LLM, parallel decoding, divide-and-conquer, training-free, inference acceleration

一句话总结¶

针对扩散大语言模型（dLLM）并行解码"一步多 token 就掉点"的痛点，本文提出训练无关的 Hierarchy-dLLM：用分治思想把连续掩码区递归切成稀疏的小子区并行解码，让未解码 token 保持稀疏分布以抑制分布漂移，在保持甚至略升精度的同时把解码速度最高提升 17×、比 Fast-dLLM 快约 1.5×。

研究背景与动机¶

领域现状：自回归（AR）LLM 逐 token 生成，串行限制了效率；扩散语言模型（dLLM，主流为 Masked Diffusion Model）用双向注意力迭代去噪，天然支持一步刷新多个 token 的并行解码，被视为打破 AR 串行瓶颈的潜力路线。
现有痛点：开源 dLLM（LLaDA、Dream）由于双向注意力使单步计算远慢于同规模 AR 模型，必须靠并行解码的吞吐增益来补偿；但它们默认退回贪心解码，每步只出一个 token，效率反而不如 AR。盲目放大并行又会触发"并行解码诅咒"——同一步预测的 token 本应满足条件独立假设，强行同时生成会产生"pens, pens, and pens"式语义崩坏。
核心矛盾：并行解码需要多 token 的联合分布 \(p(x^1,\dots,x^k\mid X_t)\)，但模型单步采样只给出各位置的边缘分布 \(p(x^i\mid X_t)\)；如何用边缘近似联合，是并行解码的中心难题。已有方法多聚焦"置信度阈值决定解谁"，却忽略了未解码位置的空间分布对解码的影响。
本文目标：在不重训模型的前提下，设计一个能在精度几乎不掉的同时大幅提速的并行解码策略。
核心 idea：作者用 KL 近似做预实验发现 —— 当未解码 token 稀疏散布时，一步解码的分布几乎贴合逐步解码；当未解码 token 形成连续片段时，分布漂移随片段变长急剧增大。【核心假设】 若能用解码策略主动把未解码区结构性地维持成稀疏分布，就能既加速又保精度。由此提出【分治解码】 Hierarchy-dLLM：把连续掩码区递归切分成相互独立的稀疏小子区并行解。

方法详解¶

整体框架¶

Hierarchy-dLLM 把每个生成块（block）的解码看成一个递归的分治过程：初始化一个连续掩码子区 → 在每个子区内按置信度并行解码至少一个 token → 用已解码 token 作"锚点"把残余连续掩码区再切分成更小的独立子区 → 在每个子区内迭代直到无掩码。已解码的锚点天然把未解码 token 打散成稀疏布局，从而抑制分布漂移；同时多个子区可并行处理，理想情况下达到 \(O(\log n)\) 级加速。

flowchart LR
    A["初始化<br/>连续掩码子区"] --> B["子区内并行解码<br/>(置信度分层规则)"]
    B --> C["以已解码 token 为锚点<br/>切分残余掩码区"]
    C --> D{"还有掩码?"}
    D -- 是 --> B
    D -- 否 --> E["输出该 block"]

关键设计¶

1. 分治解码结构（Divide-and-Conquer）：把连续掩码切成稀疏子区。 这是全文的骨架，直接落实"稀疏布局更稳"的预实验结论。每个 block 起始时是一段长度为 \(l\) 的连续掩码，作为初始子区；解码后，本步生成的 token 充当锚点，把每段残余连续掩码切成更小的独立子区进入下一轮。由于子区彼此独立、可并行，且解码总是制造分散的锚点，未解码 token 始终趋向稀疏分布——这正好命中预实验中"稀疏掩码 KL 漂移小"的甜区。这种递归把"一次性并行解一大片高耦合 token"这个困难问题，转化为一连串"在小而稀疏的子区里解少量近独立 token"的易解子问题，理想下带来对数级步数压缩。

2. 子区内分层置信度解码：高阈严选 + 低阈兜底 + 全局保底。 子区内的核心难题是"一步尽量多解、又别引入会传播的错误"。先定义位置置信度 \(c_i=\max_{v\in V}p_\theta(x^i_s=v\mid X_t)\)，再用三级递进规则：(i) 高阈值 \(\tau_{high}\)——只要 \(c_i\ge\tau_{high}\) 就提交该 token，证据强时允许子区内多位置同时并行解，保证语义稳定；(ii) 低阈值 \(\tau_{low}\)——若某子区没有任何位置过高阈（词表分布平坦），则放宽到只解该子区内最自信的一个 \(i^*=\arg\max_{i\in A}c_i\) 且需 \(c_{i^*}\ge\tau_{low}\)，避免子区原地踏步；(iii) 全局兜底——若连低阈都无人达标，则强制解全序列里最自信的那个位置，保证每步至少出一个 token、绝不停滞。这套"先严后松再保底"的 best-effort 流程，在效率、可靠性、连贯性之间动态权衡。

3. 置信度重掩码（Remasking）：纠正被后文证伪的早期预测。 随着解码推进，早期提交的 token 可能与逐渐成形的上下文冲突，表现为置信度回落。每轮再切分子区之前，对所有已解码 token 做一次检查：凡 \(c_i<\tau_{remask}\) 的就重新置回 \([\text{MASK}]\) 等待后续重解。这一步把不可逆的逐 token 提交变成可回滚，防止错误沿迭代累积、维护全局一致性，是分治结构能在"激进多解"下仍保住精度的关键安全阀。

整体上，方法完全训练无关——只改推理期解码调度，不动模型权重，因此可即插即用到任意开源 MDM 类 dLLM 上。

实验关键数据¶

主实验¶

在 LLaDA-Instruct-8B / LLaDA-1.5-8B / Dream-7B 三个开源模型、五个基准（GSM8K、MATH500、HumanEval、MBPP、IF-Eval）上，对比 Vanilla、Fast-dLLM、WINO。效率用 TPF（每次前向解出的 token 数）和 TPS（每秒吞吐）衡量。

任务 (LLaDA-1.5-8B)	方法	Score↑	TPF↑	TPS↑
GSM8K	Vanilla	83.17	0.65	1.99
	Fast-dLLM	83.32	3.10 (4.77×)	9.54 (4.79×)
	Hierarchy-dLLM	83.70	4.25 (6.54×)	14.83 (7.45×)
MATH500	Vanilla	39.80	0.84	7.96
	Hierarchy-dLLM	41.60	3.99 (4.75×)	42.25 (5.31×)
HumanEval	Vanilla	43.29	0.93	8.56
	Hierarchy-dLLM	45.12	4.20 (4.52×)	44.18 (5.16×)
MBPP	Vanilla	40.20	0.16	0.80
	Hierarchy-dLLM	40.40	2.29 (14.31×)	12.70 (15.88×)

在 LLaDA-Instruct-8B 的 MBPP 上 TPS 达 17.23× 加速；数学推理任务上不仅提速且精度还涨约 1 点，说明分治解码能缓解长推理链的误差累积。

消融实验¶

维度	结论
块长 16/32/64	两法精度都稳定，Hierarchy-dLLM 的 TPF/TPS 显著更高，且块越大优势越明显
生成长度	长序列因双向注意力使每步算量增大、TPS 下降，但 Hierarchy-dLLM 的减速远小于 vanilla，加速比随生成长度上升

关键发现¶

稀疏 vs 连续掩码：预实验显示连续掩码的近似 KL 漂移随未解 token 数显著快增，稀疏掩码则始终低位——验证了"稀疏布局让双向注意力用上左右锚点上下文"是方法生效的根因。
跨架构：Dream-7B（源自 AR base）也能获得相当加速，但精度保持弱于 LLaDA，作者归因于 AR 出身的模型对并行解码的内在支持更弱。

亮点与洞察¶

新视角：把并行解码从"解谁（置信度）"的一维问题，扩展到"未解码 token 的空间布局"这一被忽视的维度，并用 KL 近似实验给出了清晰证据，是本文最有价值的洞察。
训练无关、即插即用：只改推理调度不动权重，工程落地成本极低，可直接套在现有开源 dLLM 上。
分治的优雅性：用"已解码 token 作锚点切分残余掩码"这一简单机制，同时实现了"制造稀疏布局"和"产生可并行子区"两个目标，一举两得。

局限与展望¶

依赖多个阈值：\(\tau_{high},\tau_{low},\tau_{remask}\) 需网格搜索调参，跨任务/模型的最优值可能不同，缺乏自适应机制。
AR 出身模型受限：Dream-7B 上精度保持明显弱于 LLaDA，方法对模型本身并行能力有依赖。
\(O(\log n)\) 仅理想界：实际加速受置信度分布平坦、兜底强制解码等影响，难以恒达对数级。
评测规模：主要在 7-8B 量级与五个标准基准上验证，更大模型、开放式长文本生成上的表现待考。

评分¶

新颖性: ⭐⭐⭐⭐ —— "空间布局影响并行解码"的视角新颖，分治 + 稀疏化的组合是首个 position-based dLLM 解码框架。
实验充分度: ⭐⭐⭐⭐ —— 三模型五基准、TPF/TPS 双指标、块长/生成长度消融较完整；但模型规模与生成场景仍偏窄。
写作质量: ⭐⭐⭐⭐ —— 从预实验观察到方法动机的逻辑链清晰，公式与图示到位。
价值: ⭐⭐⭐⭐ —— 训练无关、即插即用、最高 17× 加速且不掉点，对 dLLM 落地有直接工程价值。