Lost in Diffusion: Uncovering Hallucination Patterns and Failure Modes in Diffusion Large Language Models¶

会议: ACL 2026
arXiv: 2604.10556
代码: github.com/ZeroLoss-Lab/Lost-in-Diffusion
领域: 图像复原
关键词: 扩散语言模型, 幻觉, 非自回归生成, 失败模式, 推理时计算

一句话总结¶

首次系统性地对比扩散大语言模型（dLLM）与自回归（AR）对应模型的幻觉模式，揭示当前 dLLM 幻觉倾向更高，并识别出三种扩散特有的失败模式：过早终止、不完全去噪和上下文入侵。

领域现状：扩散大语言模型（dLLM）作为非自回归生成范式正迅速崛起，LLaDA、Dream、SDAR 等开源模型在通用 benchmark 上已达到与 AR-LLM 可比的性能水平。理论上，dLLM 的全局规划和双向可见性可以缓解 AR 模型中的"滚雪球效应"和"逆向诅咒"。

现有痛点：(1) dLLM 的可信度（特别是幻觉问题）几乎未被探索，现有研究主要聚焦于架构优化和推理加速；(2) 扩散过程的随机性可能加剧解码随机性，而随机性本身就是幻觉的已知根因；(3) 缺乏控制变量的公平对比框架。

核心矛盾：dLLM 的全局上下文规划理论上应减少幻觉（可回溯修正），但扩散固有噪声可能加剧幻觉——孰对孰错缺乏实证。

本文目标：通过严格控制的对比实验回答核心问题：扩散机制究竟是缓解还是加剧了幻觉？

切入角度：设计两组精心对照的配对比较——(I) 架构对齐（LLaDA-8B vs LLaMA-3-8B）和 (II) 参数对齐（Dream-7B vs Qwen2.5-7B，Dream 直接从 Qwen 权重初始化），最大化隔离生成机制的影响。

核心 idea：dLLM 虽缩小了通用任务的性能差距，但其独特的幻觉机制对模型可靠性构成关键挑战，需要动态序列编辑能力来实现非自回归生成的全部潜力。

构建配对比较框架，通过两组对照实验隔离生成范式的影响。使用 HalluLens 基准评估外在幻觉（Extrinsic Hallucination），涵盖精确知识召回、长文本事实一致性和知识边界检测三个维度。

配对比较框架：Group I 为架构对齐——LLaDA-8B vs LLaMA-3-8B，两者共享相似架构和参数规模且通用性能可比；Group II 为参数对齐——Dream-7B vs Qwen2.5-7B，Dream 直接从 Qwen 权重初始化，任何幻觉差异可主要归因于扩散生成过程。优先使用预训练（非指令微调）检查点以隔离后训练噪声。设计动机是最大化消除训练数据和模型容量的混淆因素。
标准扩散推理设置：采用规范扩散设置（canonical diffusion），去噪步数 \(T\) 设为等于序列长度 \(L\)（\(T=L\)），最大化模型的迭代精化能力。temperature 设为 0 确保可复现性。LLaDA 使用高置信度解码，Dream 使用最小熵解码。设计动机是充分表征 dLLM 的原生生成行为，不使用半自回归或块级加速方法。
推理时计算动态分析：在 LongWiki 任务上评估不同去噪步数 \(T \in \{128, 256, 512, 1024\}\) 的影响，揭示两种 dLLM 的截然不同行为。LLaDA 因准自回归解码（线性噪声调度器 + 高置信度解码强制近似从左到右生成）导致早期饱和；Dream 因最小熵解码实现真正的非顺序精化，展现正向扩展特性。设计动机是验证 dLLM 理论上的"以计算换质量"能力是否在实践中成立。

本文是分析性工作，不涉及模型训练。评估使用 HalluLens 的自动 LLM 评估器，并通过分层子集上的人工标注验证评估器可靠性。排除了内在幻觉任务（如摘要），因为这些任务严重依赖指令遵循能力，会引入混淆因素。

模型	PreciseWikiQA HR ↓	PreciseWikiQA CR ↑	LongWiki F1@32 ↑	NonExistRefusal FA ↓
LLaMA-3-8B (AR)	85.94	10.30	0.306	73.35
LLaDA-8B (dLLM)	95.13	3.92	0.272	87.10
Qwen2.5-7B (AR)	89.06	9.06	0.387	94.05
Dream-7B (dLLM)	92.54	6.04	0.340	98.50

模型	过早终止 (PT)	不完全去噪 (ID)	上下文入侵 (CI)
LLaDA-8B	18.0%	60.0%	38.0%
Dream-7B	13.0%	44.0%	58.0%

dLLM 在所有三项任务上一致劣于 AR 对应模型：在精确知识召回中，LLaDA-8B 的正确率仅 3.92%（vs LLaMA-3-8B 10.30%）；在非存在实体拒绝中，Dream-7B 的误接受率高达 98.50%
推理时计算的分化动态：LLaDA 的 F1@32 在所有步数上停滞在 ~0.27（早期饱和），而 Dream 从 128 步到 1024 步单调递增，展现正向扩展
早期饱和归因于 LLaDA 的准自回归生成顺序——虽理论上有双向可见性，但实际被迫近似从左到右生成
三种扩散特有失败模式的发现极具启发性：
- 过早终止：独立去噪的片段无法语法对齐，模型被迫插入 EOS 或断裂分隔符
- 不完全去噪：面对罕见实体时后部序列锚定在无意义 token 上，双向注意力试图合理化连接导致整体崩溃
- 上下文入侵：偶尔去噪出高频 token（数字、代码关键词），双向注意力被迫构建通向该伪锚点的逻辑路径，劫持原始查询