Monitoring Decoding: Mitigating Hallucination via Evaluating the Factuality of Partial Response during Generation¶

会议: ACL 2025
arXiv: 2503.03106
代码: 无
领域: LLM安全
关键词: 幻觉缓解, 解码策略, 监控函数, 树搜索, 部分响应评估

一句话总结¶

提出 Monitoring Decoding (MD) 框架，在生成过程中动态监控部分响应的事实性，通过监控函数识别易产生幻觉的 token 并利用树搜索策略选择性地修正这些关键 token，从而在保持效率的同时显著提升事实准确性。

研究背景与动机¶

大语言模型在问答、摘要和推理等任务中表现出色，但仍然容易产生幻觉——生成看似合理但事实上不正确的内容。现有的幻觉缓解方法面临以下问题：

全长采样效率低：Best-of-N (BoN) 策略和自一致性方法需要生成多个完整响应，引入显著的延迟开销。

过度自信问题：模型对幻觉 token 可能表现出极高的置信度，导致多次采样仍然生成相同的错误输出。自一致性高并不等于事实正确。

关键发现：作者观察到，通常只有少数关键 token 导致幻觉，只需替换这些 token（如将 "24" 替换为 "It"）就可以将错误响应转变为正确响应。这意味着不需要重新采样整个响应。

核心问题：是否有必要重新采样多个高度相似的全长响应来提高事实性？ 答案是否定的，针对性的 token 级干预即可。

方法详解¶

整体框架¶

MD 框架包含两个核心组件： - 过程内检测机制 (In-process Detection)：在生成过程中持续监控每 m 个新生成 token 的事实性 - 树搜索修正机制 (Tree-based Revision)：对被标记的可疑 token 进行树搜索式重采样和修剪

流程：输入 prompt → 模型每次生成 m 个 token → 监控函数评估 → 若通过则保留继续生成 → 若检测到幻觉风险则触发树搜索修正 → 选择最佳路径继续。

关键设计¶

监控函数 (Monitor Function)：
- 核心思路：利用一个更大的参考模型 \(f^*\) 来评估目标模型 \(f_\theta\) 生成 token 的可信度
- 计算方式：加权比率 \(r_\beta = \sum_{s=1}^{m} w_s^t \cdot \frac{p^*(y_s^t | \mathbf{y}^{<t}, y_{<s}^t)}{p_\theta(y_s^t | \mathbf{y}^{<t}, y_{<s}^t)}\)
- 设计动机：幻觉但过度自信的 token 在目标模型中概率高但在参考模型中概率低，导致该比率较低
- 权重设计：\(w_s^t = 1/|(\mathbf{y}^{<t}, y_{<s}^t)|\)，越早的 token 权重越大，因为它们为后续生成奠定基础
带拒绝的生成 (Generation with Rejection)：
- 接受概率：\(p(\text{accept } \mathbf{y}^t) = \min\{1, r_\beta(\mathbf{y}^t)\}\)
- 自适应阈值：\(\gamma^t = \gamma_0 \sum_{s=1}^{m} w_s^t\)，其中 \(\gamma_0 \in [0,1]\)
- 若接受概率超过阈值则保留，否则触发修正
树搜索修正 (Tree-based Revision)：
- 功能：对被拒绝的 m 个 token 逐个进行树搜索式重新生成
- 核心思路：每步采样 Top-N 个候选 token，用监控函数剪枝保留 Top-K 路径，逐层扩展直到 m 步
- 设计动机：平衡探索空间和计算效率——不像全长采样那样冗余，也不像贪心解码那样单一

损失函数 / 训练策略¶

MD 是一个 无需训练 的推理时框架，不涉及额外训练： - 目标模型直接使用（如 Llama-2-7B-chat） - 参考模型选择同架构的更大模型（如 Llama-2-70B-Chat） - 超参数：采样数 N=2，搜索深度 K=3

实验关键数据¶

主实验（表格）¶

模型	方法	TruthfulQA (T×I%)	TriviaQA (EM)	NQ-Open (EM)	GSM8K (Acc)
Llama-2	Greedy	37.9	64.8	36.6	24.2
Llama-2	USC	39.4	66.8	38.6	23.4
Llama-2	MD	44.1 (+6.2)	72.1 (+7.6)	40.5 (+3.7)	27.5 (+3.3)
Llama-3	Greedy	42.4	72.4	39.6	81.4
Llama-3	MD	46.1 (+3.7)	80.8 (+8.4)	47.4 (+6.8)	85.2 (+3.8)
Gemma-2	Greedy	43.6	54.0	23.0	60.9
Gemma-2	MD	50.2 (+6.6)	64.6 (+10.6)	31.0 (+8.0)	79.9 (+19.0)

效率对比（表格）¶

方法	延迟 (ms/token)	吞吐量 (token/s)
Greedy	19.94 (×1.00)	50.68 (×1.00)
USC	245.76 (×12.32)	4.06 (×0.08)
FSC	316.72 (×15.88)	3.15 (×0.06)
MD	113.78 (×5.70)	18.99 (×0.37)

消融实验（表格）¶

采样数 N	TriviaQA EM
1 (=Greedy)	64.8
2	~70
4	~71
6+	趋于稳定（~72）

阈值 \(\gamma_0\) 从 0 到正值都能稳定提升，方法对该参数鲁棒

关键发现¶

MD 在 Gemma-2 上提升最为显著——TriviaQA 提升 10.6%，GSM8K 提升 19.0%，说明对较小模型效果更好
基线方法效果不稳定：DoLa 在推理任务上甚至降低性能（GSM8K -7.7%），ID 在 Llama-2 上 GSM8K -13.3%
MD 延迟仅为 USC 的约一半，吞吐量是 USC 的 4.7 倍，效率优势明显
案例研究表明 MD 能精准定位关键幻觉 token，仅修改少量 token 即可纠正整体响应

亮点与洞察¶

粒度洞察：不是所有 token 都需要修正——大部分"容易" token 跨采样一致，只有少量"困难" token 导致幻觉。这一发现将幻觉缓解从响应级细化到 token 级
过度自信的本质：模型对幻觉 token 的过度自信使得自一致性策略失效。MD 通过引入外部参考模型绕过了这一问题
效率与效果的平衡：选择性 token 重采样 + 树搜索剪枝实现了比全长采样更好的效果和更低的开销

局限与展望¶

依赖参考模型：需要同架构的更大参考模型（如 70B），在实际部署中增加资源需求
知识覆盖：若训练数据中不存在的事实信息，监控函数也无法检测。可通过引入外部知识库缓解
固定窗口 m：每次监控 m 个 token，m 的选择可能影响性能，论文未充分探讨最优 m 的设置
可扩展性：树搜索的 N 和 K 参数如何随任务复杂度调整尚不清楚

评分¶

新颖性: ⭐⭐⭐⭐ — token 级监控 + 树搜索修正的组合是自然但有效的创新，从 "全长采样" 到 "选择性 token 修正" 的范式转变有意义
实验充分度: ⭐⭐⭐⭐ — 3 个模型、4 个数据集、效率分析、消融实验、案例研究，较为全面
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰（尤其是 Figure 1 的对比），方法描述层次分明
价值: ⭐⭐⭐⭐ — 作为推理时幻觉缓解方案实用性强，但需要额外大模型是部署障碍