TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=4puxTouUSV
代码: https://github.com/chang-sx/TraceDet
领域: 幻觉检测 / 扩散语言模型 / LLM 安全
关键词: 扩散大模型, 幻觉检测, 去噪轨迹, 信息瓶颈, AUROC

一句话总结¶

针对扩散大语言模型（D-LLM）多步去噪过程中暴露出的幻觉信号，本文把去噪轨迹建模成一条"动作轨迹"，用信息瓶颈原理自动挑出对幻觉最有信息量的子轨迹来训练分类器，在两个开源 D-LLM、三个 QA 数据集上把幻觉检测 AUROC 平均提升 15.2%。

研究背景与动机¶

领域现状：扩散大语言模型（D-LLM，如 LLaDA-8B、Dream-7B）正成为自回归 LLM 的有力替代品。它不像 AR-LLM 那样从左到右逐 token 生成，而是用双向注意力对整条序列做多步去噪（denoising）：从全掩码序列出发，每一步预测所有被掩码 token，再按置信度重新掩码一部分，迭代 T 步后输出最终回答。这种范式在计算效率和灵活推理上有潜力，已能在同规模上追平 LLaMA-3 等领先模型。

现有痛点：D-LLM 的幻觉问题几乎没人研究，但幻觉一样会损害用户信任、在关键场景酿成严重后果。现有幻觉检测方法全是为 AR-LLM 设计的——要么是 output-based（看多次采样的一致性、token 熵等输出信号），要么是 latent-based（探测单次前向传播的隐状态）。它们都建立在"一次前向生成"这个前提上。

核心矛盾：D-LLM 的幻觉信号不只藏在最终输出里，而是弥散在整个多步去噪轨迹中。作者在实证里发现了三种 AR-LLM 没有的独特模式：交错幻觉（中间步在真实与幻觉内容间反复横跳）、摇摆猜测（多个互相矛盾的关键词轮番出现）、持续错误（自始至终咬定一个错误答案）。把这些中间动态丢掉、只看最终文本，等于扔掉了最有判别力的证据；而且部分中间信息会在重新掩码时被擦除，最终输出和中间过程存在错位。

本文目标：设计一个专门吃 D-LLM 去噪过程的幻觉检测框架，把藏在中间步里的幻觉信号利用起来。难点在于：哪些去噪步真正贡献了幻觉，事先并不知道（没有 step 级标注监督）。

切入角度：借鉴扩散策略优化里的视角，把去噪过程看成一个马尔可夫决策过程（MDP），每一步的"动作"就是模型基于当前中间结果对完整回答的预测。这样整条轨迹就成了可分析的序列证据。

核心 idea：用信息瓶颈（IB）原理，从完整动作轨迹中自动抽取"对幻觉标签最有信息量、同时尽量精简"的子轨迹，再用这个子轨迹训分类器——无需显式的 step 级监督。

方法详解¶

整体框架¶

TraceDet 要解决的是"给定一个 D-LLM 的去噪过程，判断它的最终回答是不是幻觉"。整体分三段串行：先把去噪过程转成一条可量化的动作轨迹（用每一步的 token 级熵刻画）；再用一个子轨迹提取器 \(g_\theta\) 在信息瓶颈目标下学一个时间掩码，只保留最有信息量的若干步；最后把掩码后的子轨迹喂给预测器 \(f_\phi\) 输出幻觉概率。提取器和预测器联合训练，损失由分类项和信息瓶颈正则项组成。

把去噪建成 MDP 是这套框架的地基：第 \(t\) 个状态 \(s_t=(p_0, r_{T-t})\) 是输入问题加当前中间序列，动作 \(a_t\) 是模型从 \(s_t\) 预测出的完整回答 \(\hat r_{T-t-1}\sim P_\theta(r_0\mid r_{T-t},p_0)\)，转移则是按噪声调度重新掩码一部分 token 进入下一状态。于是整条动作轨迹 \(A=\{a_0,\dots,a_{T-1}\}\) 记录了模型如何一步步精修生成，比单看最终输出 \(r_0\) 信息量大得多。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["D-LLM 多步去噪<br/>中间序列 r0…rT"] --> B["动作轨迹建模<br/>每步 token 熵 → A∈R^TxBxD"]
    B --> C["信息瓶颈子轨迹提取器 gθ<br/>时间掩码 M 选最有信息量的步"]
    C -->|Asub = M⊙A| D["子轨迹预测器 fφ<br/>时间聚合+MLP 输出幻觉概率"]
    D --> E["幻觉 / 真实 二分类结果"]

关键设计¶

1. 把去噪过程建模为基于 token 熵的动作轨迹

幻觉检测的根本困难是中间生成和最终回答错位：信息会在多步去噪和重新掩码中被擦除，单看输出无法知道幻觉是怎么冒出来的。TraceDet 的对策是把整个去噪过程显式表示成动作轨迹——不再只盯最终 \(r_0\)，而是利用每一步的"动作"。具体到工程实现，动作不直接用中间文本或 token embedding（后者拼上时间编码后表示极大、数值极不稳定），而是用每步的 token 级熵序列来刻画：熵反映了该步生成的不确定性，天然是固定大小的分布统计量，恰好能描摹"不确定性随去噪如何演化"这条时间曲线。最终轨迹张量为 \(A\in\mathbb{R}^{T\times B\times D}\)（\(T\) 步、\(B\) batch、\(D\) 维统计）。这样三种幻觉模式（交错、摇摆、持续）在熵轨迹上就有了可学习的形态差异。

2. 信息瓶颈驱动的子轨迹提取器

并不是每一步都对幻觉负责——幻觉相关的步往往稀疏且分布不均，而且哪些步相关事先未知、没有标注。直接用整条轨迹既冗余又会让模型学到捷径。TraceDet 借信息瓶颈原理把目标写成 \(\min -I(Y;A_{sub})+\beta I(A;A_{sub})\)：第一项要子轨迹 \(A_{sub}\) 对幻觉标签 \(Y\) 有信息量，第二项约束 \(A_{sub}\) 只含 \(A\) 的部分信息以避免退化成 \(A_{sub}=A\)，\(\beta\) 权衡两者，目标是找到"最小充分"的子轨迹。由于互信息难直接优化，作者推了可优化的上界：第一项放成分类交叉熵 \(L_{cls}\)；第二项把后验 \(P(A_{sub}\mid A)\) 因子化为各步独立的伯努利分布、先验取比例受 \(\tau\) 控制的非信息伯努利，最终得到可微正则项

\[L_{ext}=\sum_{i=0}^{T-1}\Big[p_{a_i}\log\frac{p_{a_i}}{\tau}+(1-p_{a_i})\log\frac{1-p_{a_i}}{1-\tau}\Big],\]

其中 \(p_{a_i}\) 是选中第 \(i\) 步的概率，\(\tau\) 限制被选轨迹的比例。工程上 \(g_\theta\) 把熵序列拼上正弦时间嵌入、过 Transformer 得到上下文表示 emb，再用以 emb 为 query 的交叉注意力生成概率掩码 \(\hat M\in(0,1)^{T\times B}\)，从中采样二值掩码 \(M\) 并按 \(A_{sub}=M\odot A\) 截取；采样不可导，用 Gumbel-Softmax 解决。

3. 子轨迹分类预测器

挑出有信息量的子轨迹后还要落到二分类判断上。预测器 \(f_\phi\) 接收掩码后的子轨迹 \(A_{sub}\)，先做时间聚合（把保留下来的步沿时间维压缩成定长表示），再过 MLP 加激活层，直接输出每个样本是否幻觉的概率 \(f_\phi(A_{sub})\in[0,1]\)。它与提取器联合训练，整体目标为 \(L=L_{cls}+\beta L_{ext}\)：\(L_{cls}\) 督促"用选中的步能判对幻觉"，\(L_{ext}\) 督促"别贪心地全选"，两者的 \(\beta\) 与信息瓶颈里的权衡系数同一个。这种端到端联合优化让"选哪些步"和"怎么判"互相校准，比先固定一个再训另一个更紧。

损失函数 / 训练策略¶

总损失 \(L=L_{cls}+\beta L_{ext}\)，\(L_{cls}\) 为子轨迹分类的交叉熵、\(L_{ext}\) 为信息瓶颈正则项（Eq. 6），\(\beta\) 控制正则强度。提取器与预测器联合训练，掩码采样用 Gumbel-Softmax 保证可微。每个数据集随机采 400 对 QA，划成 200 验证 / 200 测试，按验证集选模型。

实验关键数据¶

主实验¶

两个开源 D-LLM（LLaDA-8B-Instruct、Dream-7B-Instruct），三个事实性 QA 数据集（TriviaQA、HotpotQA、CommonsenseQA），生成长度 128 / 64 两档，指标 AUROC(%)。开放域 QA 用 Qwen3-8B 当裁判（与人工一致性 TriviaQA 90%、HotpotQA 84%）。

模型	方法	TriviaQA-128	HotpotQA-128	CommonsenseQA-128	平均
LLaDA-8B	EigenScore（次优）	69.2	64.7	58.5	63.2
LLaDA-8B	TraceDet	73.9	66.1	77.2	72.0
Dream-7B	EigenScore	66.0	62.5	76.9	69.8
Dream-7B	TraceDet	78.1	75.1	84.7	80.8

TraceDet 在所有设置下都拿到最高 AUROC：在 LLaDA-8B 上比次强 baseline 高 8.8%，Dream-7B 上高 11%，整体相对 baseline 平均提升 15.2%。F1 分数（Table 2）也一致领先，如 TriviaQA-64 达 80.2、CommonsenseQA-64 达 90.2。

消融实验¶

配置	LLaDA-8B 平均 AUROC	Dream-7B 平均 AUROC	说明
Ave Entropy	62.8	65.3	只用逐步熵的平均值做朴素置信度
TraceDet w/o Masking	69.1	78.4	训 Transformer 检测器但去掉子轨迹提取与 \(L_{ext}\)
TraceDet（完整）	72.0	80.8	完整框架

关键发现¶

从"平均熵"到"全轨迹 Transformer"再到"加子轨迹提取"逐级涨点：Ave Entropy → w/o Masking 在 Dream-7B 上猛涨 13.1 个点，说明把整条去噪轨迹当时间序列建模本身就极有价值；再加信息瓶颈的子轨迹提取又涨 2~3 个点，证明"挑出信息量最大的步"确实进一步去噪。
用熵轨迹而非 embedding 轨迹：embedding 拼时间编码后表示巨大且数值不稳定，token 熵则定长稳定，是工程上的关键取舍。
效率优势明显：TraceDet 推理 100 样本仅 147.5s，远低于 Semantic Entropy（801s）、Lexical Similarity（715s）等需多次采样的方法，和最快的 CCS（141s）同量级。
baseline 鲁棒性差：Semantic Entropy 在 Dream-7B 的 TriviaQA 上有 75.1%，到 CommonsenseQA 直接塌到 51.4%；Dream 因中间 logits 受限，Perplexity/LN-Entropy 常发散到无穷，凸显输出信号在 D-LLM 上的不可靠。
TraceDet 对不同生成长度（128/64/32/16）和去噪步长（1/2/4/8）都稳定（Fig. 3）。

亮点与洞察¶

把去噪轨迹当成"证据序列"而非噪声：以往大家只关心 D-LLM 的最终输出质量，本文反过来发现中间步的不确定性演化才是幻觉的指纹——这是观念上的"啊哈"点。
MDP + 信息瓶颈的组合很巧：MDP 把去噪过程结构化成动作轨迹，IB 又在没有 step 级标签的情况下把"哪些步重要"变成可学习的最小充分子集问题，二者咬合得很自然。
熵轨迹的工程选择可迁移：任何需要把"多步生成过程"压成定长时序特征的任务（如多步推理监控、early-exit 决策），都可以借鉴"用逐步熵代替逐步 embedding"来避免维度爆炸和数值不稳定。
首次系统刻画 D-LLM 三类幻觉模式（交错幻觉 / 摇摆猜测 / 持续错误），本身就是有价值的实证贡献。

局限与展望¶

依赖可拿到逐步 token logits/熵：方法吃中间步的熵轨迹，只能用在暴露 stepwise logits 的开源 D-LLM 上；作者也坦言目前能用的也就 LLaDA、Dream 两家，闭源或只给最终输出的模型无法适用。
只在 QA 事实性任务上验证：三个数据集都是 QA，开放生成、长文写作、多轮对话等更复杂场景下幻觉模式是否还能被熵轨迹捕捉，尚未验证。
机制仍是黑盒：作者明确说三种幻觉模式背后的生成机制仍是开放问题，TraceDet 是"检测"而非"解释/缓解"，不回答幻觉为什么产生、也不修复。
裁判依赖外部 LLM：开放域幻觉标签由 Qwen3-8B 判定（一致性 84%~90%），裁判偏差可能传入训练标签。
改进方向：把熵轨迹与中间文本/隐状态多模态融合、把检测信号回灌到去噪过程做幻觉缓解、扩展到更多 D-LLM 与生成任务。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次研究 D-LLM 幻觉，并把去噪轨迹建成 action trace + 信息瓶颈提取子轨迹，角度新颖。
实验充分度: ⭐⭐⭐⭐ 覆盖 2 模型 ×3 数据集 ×2 长度，含消融/效率/鲁棒性，但仅限 QA 与两家开源模型。
写作质量: ⭐⭐⭐⭐ 动机—观察—方法链条清晰，三类幻觉模式图示直观。
价值: ⭐⭐⭐⭐ 为 D-LLM 安全部署提供了可落地、低开销的幻觉检测器，AUROC 提升显著。