Building Reliable Long-Form Generation via Hallucination Rejection Sampling¶

会议: ICML 2026
arXiv: 2606.03628
代码: https://github.com/TreeLLi/hallucination-rejection-sampling
领域: LLM评测
关键词: 幻觉缓解, 推理时计算, 语义熵, 拒绝采样, 长文本生成

一句话总结¶

提出 SHARS 框架，在推理时逐句检测并拒绝幻觉内容、仅保留经验证的事实段落继续生成，配合改进的语义熵检测器 HalluSE，在 FactScore 上将事实精度提升约 20–26%，同时保持甚至增加生成中的事实信息量。

研究背景与动机¶

领域现状：大语言模型在开放式长文本生成中表现出色，但幻觉问题严重影响可靠性。现有缓解方法主要分为训练时方法（如 DPO 偏好优化、FactAlign 句级奖励）和推理时方法（如 DoLa 层间对比解码、RAG 检索增强）。

现有痛点：长文本生成中存在 幻觉雪球效应（hallucination snowballing）——早期生成的错误会传播并放大后续输出中的错误。现有推理时方法要么需要外部知识库（RAG），要么仅在 token 级别干预（DoLa），无法有效阻断错误的逐句累积。

核心矛盾：开放式问题通常有无限多的有效回答信息，但模型实际只使用其中有限子集。如果能过滤掉幻觉内容并引导模型探索剩余信息空间中的真实内容，就能打破错误链式传播。

本文目标：设计一个通用的推理时框架，能够 (1) 逐段检测并拒绝幻觉内容，(2) 仅在已验证的事实基础上继续生成，(3) 不依赖外部知识库即可工作。

切入角度：作者观察到推理时计算扩展（inference-time compute scaling）范式在事实性方面尚未被充分探索，且用户在高风险场景中愿意用更多推理时间换取更可靠的输出。

核心 idea：用分段拒绝采样（segment-wise rejection sampling）逐句过滤幻觉，仅在已验证的事实上继续生成，从源头阻断幻觉雪球效应。

方法详解¶

整体框架¶

SHARS 的 pipeline 为：给定用户查询 \(q\)，模型逐句生成文本 → 每生成一句调用幻觉检测器 HalluSE 判断该句事实性 → 根据检测结果决定保留/重写/丢弃 → 在已验证文本基础上继续生成下一句。终止条件为：生成 EOS、达到最大 token 预算、或连续 \(N\) 次采样全为幻觉。

关键设计¶

分段拒绝采样（Segment-wise Rejection Sampling）:
- 功能：逐句检测并过滤幻觉内容，仅保留事实段落用于后续生成
- 核心思路：与传统 best-of-N 整体拒绝不同，SHARS 对每一句动态执行拒绝采样。对于当前句，检测器将其分解为事实集合并判定每个事实的可信度。若句中全为幻觉则丢弃；若混合了事实和幻觉则用 LLM 重写，仅保留经验证的事实声明（采用"给正面示例让模型重组"而非"告诉模型删除负面内容"，因实验发现前者在中小模型上表现更好）；若全为事实则直接保留。采样新句时使用 Following 策略——暂时保留已识别的幻觉句作为上下文让模型继续生成，利用模型自身的内容规划能力避免重复生成同类知识，同时幻觉句不参与语义熵计算以防止污染检测
- 设计动机：逐句干预能在错误产生的最早阶段阻断幻觉雪球效应，比整体拒绝更高效且更细粒度
HalluSE 幻觉检测器:
- 功能：基于语义熵的长文本幻觉检测方法，改进了朴素语义熵的三个关键缺陷
- 核心思路：流程为 (1) 将生成文本分解为 (实体, 事实声明) 对，而非仅分解为事实声明——解决了朴素方法中探测实体歧义的问题；(2) 为每个事实生成 \(Q\) 个探测问题，通过改进的提示策略确保预期答案无歧义；(3) 对每个问题采样 \(A\) 个答案，并显式指示 LLM 提供所有有效答案——解决了多有效答案导致的语义熵虚高问题；(4) 计算各问题的语义熵并取平均，若超过阈值 \(\theta\) 则判定为幻觉。语义熵 \(H_s = -\sum_i p(C_i) \log p(C_i)\)，其中 \(C_i\) 为语义聚类，\(p(C_i) = \sum_{y \in C_i} p(y)\)
- 设计动机：朴素语义熵方法存在实体探测歧义和多有效答案误报两大问题，导致在长文本场景下检测精度不足
动态弃权机制（Dynamic Abstention）:
- 功能：当模型对查询缺乏可靠知识时自动拒绝回答，而非强行编造
- 核心思路：当连续 \(N\) 次采样新句子均被判定为全幻觉时，终止生成。这种弃权可以发生在生成开始时（模型对整个问题缺乏知识），也可以发生在生成中途（模型已输出其确信的部分后停止）。通过调节检测阈值 \(\theta\) 可以平滑控制响应率与事实精度之间的 trade-off
- 设计动机：与其让模型生成不可靠的内容再让用户审核，不如让模型主动识别自身知识边界并适时停止

实验关键数据¶

主实验¶

在 FactScore 基准上的无长度约束评测（Qwen3-32B）：

方法	响应率(%)	不支持事实数	支持事实数	事实精度(%)
Greedy	99.5	8.8	9.7	52.4
DoLa	95.6	9.3	8.2	53.1
ChatProtect	98.9	8.1	6.8	54.4
Self-Endorse	91.8	4.9	8.4	63.2
SHARS-Info	92.9	4.2	11.7	73.5
SHARS-Prec	82.4	3.1	11.1	78.4

FactualBio 幻觉检测评测（Qwen3-32B，Major+Minor）：

方法	AUROC	AURAC	Acc@0.8	Acc@0.9
Self-Check	57.6	69.3	73.5	73.5
P(True)	69.8	73.3	70.0	70.0
Naive SE	66.2	73.1	70.5	70.5
HalluSE	72.9	77.3	75.4	72.8

消融实验¶

采样策略	重写	响应率(%)	事实精度(%)	相对耗时
Following	是	91.8	69.4	1.00×
Temperature	是	95.6	64.8	1.01×
Following	否	54.4	73.5	1.60×
Temperature	否	40.1	76.2	1.55×

关键发现¶

SHARS 框架与检测器均有贡献：即使将语义熵替换为朴素 token 级熵（Ours-NE），事实精度仍达 70.1%，超过最强 baseline Self-Endorse（63.2%），说明框架本身的分段拒绝策略是有效的
与训练时方法互补：在 FactAlign 基础上叠加 SHARS，事实精度从 53.1% 提升至 80.6%（无长度约束），说明推理时和训练时方法可以协同
小模型同样有效：Qwen3-4B 上获得 +16–24% 精度提升，表明方法不依赖强指令跟随能力
重写对响应率至关重要：关闭重写后响应率从 91.8% 骤降至 54.4%，因为混合型句子被整体丢弃导致大量弃权；Following 策略比 Temperature 策略在支持事实数和精度上均更优

亮点与洞察¶

推理时事实性扩展的新范式：首次系统展示了推理时计算扩展在开放式生成事实性上的 scaling 特性——在合理范围内增加推理计算量可以持续提高事实精度，且效率远优于 Self-Endorse 等方法（相同精度下计算量低 2–3 倍）
正面示例重写优于负面删除：发现让 LLM 根据经验证的事实列表重组句子，比给出原句加标注让其删除幻觉部分效果更好，这一发现在中小模型上尤为显著，对其他 LLM 后处理任务也有借鉴意义
知识边界的自发感知：弃权机制不需要额外的校准，模型在反复采样失败后自然停止，本质上实现了对自身参数化知识边界的感知

局限与展望¶

方法不引入外部知识，若模型对某主题完全无知，拒绝采样无法产生新的正确信息，仅能选择弃权
推理时计算开销仍较高（约 10–50× Greedy），虽然优于同精度的 baseline，但在延迟敏感场景下仍有挑战
当前仅用于英文事实性评测，跨语言和非事实性幻觉（如逻辑不一致）场景尚未验证
可改进方向：(1) 与 RAG 结合弥补模型知识盲区；(2) 蒸馏检测器为轻量探针降低开销；(3) 探索更高效的批量句子级检测方法