TraceDet: Hallucination Detection from the Decoding Trace of Diffusion Large Language Models¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=4puxTouUSV
代码: https://github.com/chang-sx/TraceDet
领域: 幻觉检测 / 扩散语言模型 / LLM 安全
关键词: 扩散大模型, 幻觉检测, 去噪轨迹, 信息瓶颈, AUROC
一句话总结¶
针对扩散大语言模型(D-LLM)多步去噪过程中暴露出的幻觉信号,本文把去噪轨迹建模成一条"动作轨迹",用信息瓶颈原理自动挑出对幻觉最有信息量的子轨迹来训练分类器,在两个开源 D-LLM、三个 QA 数据集上把幻觉检测 AUROC 平均提升 15.2%。
研究背景与动机¶
领域现状:扩散大语言模型(D-LLM,如 LLaDA-8B、Dream-7B)正成为自回归 LLM 的有力替代品。它不像 AR-LLM 那样从左到右逐 token 生成,而是用双向注意力对整条序列做多步去噪(denoising):从全掩码序列出发,每一步预测所有被掩码 token,再按置信度重新掩码一部分,迭代 T 步后输出最终回答。这种范式在计算效率和灵活推理上有潜力,已能在同规模上追平 LLaMA-3 等领先模型。
现有痛点:D-LLM 的幻觉问题几乎没人研究,但幻觉一样会损害用户信任、在关键场景酿成严重后果。现有幻觉检测方法全是为 AR-LLM 设计的——要么是 output-based(看多次采样的一致性、token 熵等输出信号),要么是 latent-based(探测单次前向传播的隐状态)。它们都建立在"一次前向生成"这个前提上。
核心矛盾:D-LLM 的幻觉信号不只藏在最终输出里,而是弥散在整个多步去噪轨迹中。作者在实证里发现了三种 AR-LLM 没有的独特模式:交错幻觉(中间步在真实与幻觉内容间反复横跳)、摇摆猜测(多个互相矛盾的关键词轮番出现)、持续错误(自始至终咬定一个错误答案)。把这些中间动态丢掉、只看最终文本,等于扔掉了最有判别力的证据;而且部分中间信息会在重新掩码时被擦除,最终输出和中间过程存在错位。
本文目标:设计一个专门吃 D-LLM 去噪过程的幻觉检测框架,把藏在中间步里的幻觉信号利用起来。难点在于:哪些去噪步真正贡献了幻觉,事先并不知道(没有 step 级标注监督)。
切入角度:借鉴扩散策略优化里的视角,把去噪过程看成一个马尔可夫决策过程(MDP),每一步的"动作"就是模型基于当前中间结果对完整回答的预测。这样整条轨迹就成了可分析的序列证据。
核心 idea:用信息瓶颈(IB)原理,从完整动作轨迹中自动抽取"对幻觉标签最有信息量、同时尽量精简"的子轨迹,再用这个子轨迹训分类器——无需显式的 step 级监督。
方法详解¶
整体框架¶
TraceDet 要解决的是"给定一个 D-LLM 的去噪过程,判断它的最终回答是不是幻觉"。整体分三段串行:先把去噪过程转成一条可量化的动作轨迹(用每一步的 token 级熵刻画);再用一个子轨迹提取器 \(g_\theta\) 在信息瓶颈目标下学一个时间掩码,只保留最有信息量的若干步;最后把掩码后的子轨迹喂给预测器 \(f_\phi\) 输出幻觉概率。提取器和预测器联合训练,损失由分类项和信息瓶颈正则项组成。
把去噪建成 MDP 是这套框架的地基:第 \(t\) 个状态 \(s_t=(p_0, r_{T-t})\) 是输入问题加当前中间序列,动作 \(a_t\) 是模型从 \(s_t\) 预测出的完整回答 \(\hat r_{T-t-1}\sim P_\theta(r_0\mid r_{T-t},p_0)\),转移则是按噪声调度重新掩码一部分 token 进入下一状态。于是整条动作轨迹 \(A=\{a_0,\dots,a_{T-1}\}\) 记录了模型如何一步步精修生成,比单看最终输出 \(r_0\) 信息量大得多。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["D-LLM 多步去噪<br/>中间序列 r0…rT"] --> B["动作轨迹建模<br/>每步 token 熵 → A∈R^TxBxD"]
B --> C["信息瓶颈子轨迹提取器 gθ<br/>时间掩码 M 选最有信息量的步"]
C -->|Asub = M⊙A| D["子轨迹预测器 fφ<br/>时间聚合+MLP 输出幻觉概率"]
D --> E["幻觉 / 真实 二分类结果"]
关键设计¶
1. 把去噪过程建模为基于 token 熵的动作轨迹
幻觉检测的根本困难是中间生成和最终回答错位:信息会在多步去噪和重新掩码中被擦除,单看输出无法知道幻觉是怎么冒出来的。TraceDet 的对策是把整个去噪过程显式表示成动作轨迹——不再只盯最终 \(r_0\),而是利用每一步的"动作"。具体到工程实现,动作不直接用中间文本或 token embedding(后者拼上时间编码后表示极大、数值极不稳定),而是用每步的 token 级熵序列来刻画:熵反映了该步生成的不确定性,天然是固定大小的分布统计量,恰好能描摹"不确定性随去噪如何演化"这条时间曲线。最终轨迹张量为 \(A\in\mathbb{R}^{T\times B\times D}\)(\(T\) 步、\(B\) batch、\(D\) 维统计)。这样三种幻觉模式(交错、摇摆、持续)在熵轨迹上就有了可学习的形态差异。
2. 信息瓶颈驱动的子轨迹提取器
并不是每一步都对幻觉负责——幻觉相关的步往往稀疏且分布不均,而且哪些步相关事先未知、没有标注。直接用整条轨迹既冗余又会让模型学到捷径。TraceDet 借信息瓶颈原理把目标写成 \(\min -I(Y;A_{sub})+\beta I(A;A_{sub})\):第一项要子轨迹 \(A_{sub}\) 对幻觉标签 \(Y\) 有信息量,第二项约束 \(A_{sub}\) 只含 \(A\) 的部分信息以避免退化成 \(A_{sub}=A\),\(\beta\) 权衡两者,目标是找到"最小充分"的子轨迹。由于互信息难直接优化,作者推了可优化的上界:第一项放成分类交叉熵 \(L_{cls}\);第二项把后验 \(P(A_{sub}\mid A)\) 因子化为各步独立的伯努利分布、先验取比例受 \(\tau\) 控制的非信息伯努利,最终得到可微正则项
其中 \(p_{a_i}\) 是选中第 \(i\) 步的概率,\(\tau\) 限制被选轨迹的比例。工程上 \(g_\theta\) 把熵序列拼上正弦时间嵌入、过 Transformer 得到上下文表示 emb,再用以 emb 为 query 的交叉注意力生成概率掩码 \(\hat M\in(0,1)^{T\times B}\),从中采样二值掩码 \(M\) 并按 \(A_{sub}=M\odot A\) 截取;采样不可导,用 Gumbel-Softmax 解决。
3. 子轨迹分类预测器
挑出有信息量的子轨迹后还要落到二分类判断上。预测器 \(f_\phi\) 接收掩码后的子轨迹 \(A_{sub}\),先做时间聚合(把保留下来的步沿时间维压缩成定长表示),再过 MLP 加激活层,直接输出每个样本是否幻觉的概率 \(f_\phi(A_{sub})\in[0,1]\)。它与提取器联合训练,整体目标为 \(L=L_{cls}+\beta L_{ext}\):\(L_{cls}\) 督促"用选中的步能判对幻觉",\(L_{ext}\) 督促"别贪心地全选",两者的 \(\beta\) 与信息瓶颈里的权衡系数同一个。这种端到端联合优化让"选哪些步"和"怎么判"互相校准,比先固定一个再训另一个更紧。
损失函数 / 训练策略¶
总损失 \(L=L_{cls}+\beta L_{ext}\),\(L_{cls}\) 为子轨迹分类的交叉熵、\(L_{ext}\) 为信息瓶颈正则项(Eq. 6),\(\beta\) 控制正则强度。提取器与预测器联合训练,掩码采样用 Gumbel-Softmax 保证可微。每个数据集随机采 400 对 QA,划成 200 验证 / 200 测试,按验证集选模型。
实验关键数据¶
主实验¶
两个开源 D-LLM(LLaDA-8B-Instruct、Dream-7B-Instruct),三个事实性 QA 数据集(TriviaQA、HotpotQA、CommonsenseQA),生成长度 128 / 64 两档,指标 AUROC(%)。开放域 QA 用 Qwen3-8B 当裁判(与人工一致性 TriviaQA 90%、HotpotQA 84%)。
| 模型 | 方法 | TriviaQA-128 | HotpotQA-128 | CommonsenseQA-128 | 平均 |
|---|---|---|---|---|---|
| LLaDA-8B | EigenScore(次优) | 69.2 | 64.7 | 58.5 | 63.2 |
| LLaDA-8B | TraceDet | 73.9 | 66.1 | 77.2 | 72.0 |
| Dream-7B | EigenScore | 66.0 | 62.5 | 76.9 | 69.8 |
| Dream-7B | TraceDet | 78.1 | 75.1 | 84.7 | 80.8 |
TraceDet 在所有设置下都拿到最高 AUROC:在 LLaDA-8B 上比次强 baseline 高 8.8%,Dream-7B 上高 11%,整体相对 baseline 平均提升 15.2%。F1 分数(Table 2)也一致领先,如 TriviaQA-64 达 80.2、CommonsenseQA-64 达 90.2。
消融实验¶
| 配置 | LLaDA-8B 平均 AUROC | Dream-7B 平均 AUROC | 说明 |
|---|---|---|---|
| Ave Entropy | 62.8 | 65.3 | 只用逐步熵的平均值做朴素置信度 |
| TraceDet w/o Masking | 69.1 | 78.4 | 训 Transformer 检测器但去掉子轨迹提取与 \(L_{ext}\) |
| TraceDet(完整) | 72.0 | 80.8 | 完整框架 |
关键发现¶
- 从"平均熵"到"全轨迹 Transformer"再到"加子轨迹提取"逐级涨点:Ave Entropy → w/o Masking 在 Dream-7B 上猛涨 13.1 个点,说明把整条去噪轨迹当时间序列建模本身就极有价值;再加信息瓶颈的子轨迹提取又涨 2~3 个点,证明"挑出信息量最大的步"确实进一步去噪。
- 用熵轨迹而非 embedding 轨迹:embedding 拼时间编码后表示巨大且数值不稳定,token 熵则定长稳定,是工程上的关键取舍。
- 效率优势明显:TraceDet 推理 100 样本仅 147.5s,远低于 Semantic Entropy(801s)、Lexical Similarity(715s)等需多次采样的方法,和最快的 CCS(141s)同量级。
- baseline 鲁棒性差:Semantic Entropy 在 Dream-7B 的 TriviaQA 上有 75.1%,到 CommonsenseQA 直接塌到 51.4%;Dream 因中间 logits 受限,Perplexity/LN-Entropy 常发散到无穷,凸显输出信号在 D-LLM 上的不可靠。
- TraceDet 对不同生成长度(128/64/32/16)和去噪步长(1/2/4/8)都稳定(Fig. 3)。
亮点与洞察¶
- 把去噪轨迹当成"证据序列"而非噪声:以往大家只关心 D-LLM 的最终输出质量,本文反过来发现中间步的不确定性演化才是幻觉的指纹——这是观念上的"啊哈"点。
- MDP + 信息瓶颈的组合很巧:MDP 把去噪过程结构化成动作轨迹,IB 又在没有 step 级标签的情况下把"哪些步重要"变成可学习的最小充分子集问题,二者咬合得很自然。
- 熵轨迹的工程选择可迁移:任何需要把"多步生成过程"压成定长时序特征的任务(如多步推理监控、early-exit 决策),都可以借鉴"用逐步熵代替逐步 embedding"来避免维度爆炸和数值不稳定。
- 首次系统刻画 D-LLM 三类幻觉模式(交错幻觉 / 摇摆猜测 / 持续错误),本身就是有价值的实证贡献。
局限与展望¶
- 依赖可拿到逐步 token logits/熵:方法吃中间步的熵轨迹,只能用在暴露 stepwise logits 的开源 D-LLM 上;作者也坦言目前能用的也就 LLaDA、Dream 两家,闭源或只给最终输出的模型无法适用。
- 只在 QA 事实性任务上验证:三个数据集都是 QA,开放生成、长文写作、多轮对话等更复杂场景下幻觉模式是否还能被熵轨迹捕捉,尚未验证。
- 机制仍是黑盒:作者明确说三种幻觉模式背后的生成机制仍是开放问题,TraceDet 是"检测"而非"解释/缓解",不回答幻觉为什么产生、也不修复。
- 裁判依赖外部 LLM:开放域幻觉标签由 Qwen3-8B 判定(一致性 84%~90%),裁判偏差可能传入训练标签。
- 改进方向:把熵轨迹与中间文本/隐状态多模态融合、把检测信号回灌到去噪过程做幻觉缓解、扩展到更多 D-LLM 与生成任务。
相关工作与启发¶
- vs Output-based(Perplexity / Semantic Entropy / Lexical Similarity): 它们靠输出端的多采样一致性或 token 熵,假设"一次前向生成",在 D-LLM 上既丢掉中间过程信号、又受限于 logits 不可得,鲁棒性差且需多次采样很慢;TraceDet 用单次去噪的全轨迹熵,既快又稳。
- vs Latent-based(EigenScore / CCS / TSV): 它们探测单次前向的静态隐状态,无法捕捉去噪的时间动态;TraceDet 显式建模时序演化,故能涨点 8.8%~11%。
- vs 用 IB 缓解 VLLM 幻觉的工作(Bai et al. 2025): 那篇把 IB 当图像 sub-instance 提取器、面向 VLLM 输出;本文把 IB 用在 D-LLM 逐步生成的时序轨迹上,提出时间嵌入方案捕捉中间步信号,应用对象和信号形态都不同。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次研究 D-LLM 幻觉,并把去噪轨迹建成 action trace + 信息瓶颈提取子轨迹,角度新颖。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 2 模型 ×3 数据集 ×2 长度,含消融/效率/鲁棒性,但仅限 QA 与两家开源模型。
- 写作质量: ⭐⭐⭐⭐ 动机—观察—方法链条清晰,三类幻觉模式图示直观。
- 价值: ⭐⭐⭐⭐ 为 D-LLM 安全部署提供了可落地、低开销的幻觉检测器,AUROC 提升显著。