FaithLens: Detecting and Explaining Faithfulness Hallucination¶

会议: ACL 2026 Findings
arXiv: 2512.20182
代码: https://github.com/S1s-Z/FaithLens
领域: 幻觉检测
关键词: 忠实性幻觉, 可解释检测, 规则强化学习, 数据过滤, 跨任务泛化

一句话总结¶

本文提出 FaithLens，一个 8B 参数的忠实性幻觉检测模型，通过高质量数据合成+三维过滤（标签正确性、解释质量、数据多样性）进行冷启动 SFT，再用基于规则的强化学习（预测正确性奖励+解释质量奖励）进一步优化，在 12 个任务上超越 GPT-5.2 和 o3，同时提供高质量的解释性输出。

研究背景与动机¶

领域现状：LLM 广泛用于基于上下文的文本生成（如 RAG、摘要），但容易产生与给定上下文不一致或无关的"忠实性幻觉"。检测此类幻觉对于负责任的 LLM 服务至关重要。

现有痛点：(1) 缺乏可解释性——现有方法将幻觉检测视为黑盒二分类，仅输出预测标签而不解释原因，用户无法定位错误和理解原因；(2) 跨任务泛化不一致——不同任务有不同的幻觉模式（摘要中的微妙扭曲 vs RAG 中的矛盾声明），通用模型表现不均衡；(3) 缺乏高质量数据——标注成本高、一致性低，合成数据缺乏质量控制。

核心矛盾：要同时实现高检测准确率和高解释质量是困难的：SFT 训练让模型模仿训练数据，容易记住简单样本但在复杂场景泛化差；而自由形式解释的质量难以用规则直接验证。

本文目标：构建成本效益高的幻觉检测模型，同时输出检测结果和解释性说明，在 12 个多样化任务上实现 SOTA。

切入角度：两阶段训练——先用精心过滤的合成数据 SFT 冷启动，再用巧妙设计的规则奖励（预测正确性+解释质量）进行 GRPO 强化学习。

核心 idea：解释质量奖励的关键洞察——如果一个解释能帮助"新手模型"（未微调的 Llama-3.1-8B）正确预测标签，说明该解释足够清晰和信息丰富。

方法详解¶

整体框架¶

FaithLens 要解决的是"幻觉检测既要准、又要能说清为什么"这对难题，整体走两阶段。第一阶段冷启动 SFT：从开源数据集出发，用高级推理模型（DeepSeek-V3.2-Think）合成带解释的训练数据，经过一道三维过滤筛掉噪声样本后微调出一个会输出"标签 + 解释"的 8B 模型；第二阶段规则强化学习：用 GRPO 进一步优化，奖励由预测正确性、解释质量、格式三部分组成。两阶段串起来的逻辑是——SFT 先让模型学会基本的检测和解释格式，RL 再用奖励信号把它推到复杂场景也站得住的水平。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["开源数据集"] --> B["DeepSeek-V3.2-Think 合成<br/>带解释的训练数据"]
    B --> FILT
    subgraph FILT["三维数据过滤策略"]
        direction TB
        F1["标签过滤<br/>预测 ≠ 真值则整条丢弃"] --> F2["解释质量过滤<br/>解释须压低正确标签困惑度"]
        F2 --> F3["多样性过滤<br/>K-Medoids 探测集筛覆盖度"]
    end
    FILT --> C["冷启动 SFT<br/>微调出输出『标签 + 解释』的 8B 模型"]
    C --> D["GRPO 强化学习训练<br/>每个文档-声明对采样 G 个候选"]
    D --> REW
    subgraph REW["组合奖励 R_final"]
        direction TB
        R1["预测正确性 R_pred"]
        R2["解释质量奖励 R_exp<br/>新手模型仅凭解释能否预测对"]
        R3["格式正确性 R_format"]
    end
    REW -->|组内相对优势 + KL 正则更新策略| D
    D --> OUT["FaithLens-8B<br/>输出检测标签 + 解释"]

关键设计¶

1. 三维数据过滤策略：用三道筛子保证合成数据既标得对、又讲得清、还覆盖得全

不加过滤的合成数据混着大量噪声和过多的简单样本，直接拿来 SFT 会让模型只学会背简单题。FaithLens 设计了递进式的三道过滤。标签过滤比较 LLM 预测与真实标签，不一致就整条丢弃——因为一个错误标签配上的 CoT 和解释往往看起来很连贯，却是和错误预测"内在自洽"的，留着就是教模型自圆其说。解释质量过滤测量加入解释后模型对正确标签的困惑度是否下降，只保留那些能把困惑度压低的样本，等于要求解释真的携带了有用信息而非空话。多样性过滤先用 K-Medoids 聚类构建一个探测集，再测试每个候选样本能否帮探测集里的样本预测正确，保留对多样化样本有正面影响的训练数据。三道筛子从"对不对 → 有没有信息量 → 覆不覆盖多样场景"层层收紧，最后留下的数据才同时具备正确性、信息量和多样性。

2. 解释质量奖励：用"新手能不能看懂你的解释"来给自由文本质量打分

自由形式的解释好不好，几乎没法用规则直接验证，这是把解释质量纳入 RL 奖励的最大障碍。FaithLens 的巧招是做一次代理评估：把生成的解释 \(e\) 连同文档和声明一起喂给一个"新手模型"（未微调的 Llama-3.1-8B-Instruct），看它能不能仅凭这段解释把标签预测对——能则奖励为 \(1\)，否则为 \(0\)，并入总奖励 \(R_{\text{final}} = R_{\text{pred}} + R_{\text{exp}} + R_{\text{format}}\)。背后的判据很直白："如果一个未经训练的新手都能顺着你的解释得出正确答案，那这段解释一定足够清晰、信息足够丰富。"这就把"文本质量好不好"这个不可验证的问题，转化成了"新手分类对不对"这个可验证的二分类问题。

3. GRPO 强化学习训练：在 SFT 冷启动之上靠探索把复杂场景也啃下来

SFT 的通病是容易记住简单样本、却在复杂场景泛化差，光靠模仿训练数据走不远。FaithLens 接着用 GRPO（Group Relative Policy Optimization）：对每个文档-声明对生成 \(G\) 个候选（每个含解释 + 预测），用上面那套组合奖励给每个候选打分，再通过 GRPO 的组内相对优势估计更新策略，同时用 KL 散度正则化防止偏离参考策略过远。相比 SFT 的被动模仿，RL 靠主动探索 + 奖励驱动，逼着模型在那些 SFT 阶段没见好、靠背题过不去的复杂样本上也产出高质量的"解释 + 预测"。

损失函数 / 训练策略¶

SFT 阶段在过滤后的合成数据上用标准交叉熵损失微调。RL 阶段用 GRPO，组合奖励 = 预测正确性(0/1) + 解释质量(0/1) + 格式正确性(0/1)。基础模型为 Llama-3.1-8B-Instruct。

实验关键数据¶

主实验¶

12 个任务的总体性能（Balanced Accuracy %）

模型	标准差 ↓	平均值 ↑
GPT-4o	7.0	76.1
o3	6.0	82.1
GPT-5.2	-	85.3
Claude-3.7-Sonnet	5.3	82.6
DeepSeek-V3.2-Think	5.1	84.4
MiniCheck-7B	9.3	76.7
FaithLens-8B (Ours)	4.1	85.8

消融实验¶

配置	平均准确率	说明
Full FaithLens	85.8	完整模型
w/o RL（仅 SFT）	82.3	RL 贡献 +3.5
w/o 解释质量奖励	84.1	解释奖励贡献 +1.7
w/o 数据过滤	79.8	过滤贡献 +6.0
w/o 多样性过滤	81.5	多样性过滤贡献 +4.3

关键发现¶

8B FaithLens 超越了 GPT-5.2（85.8 vs 85.3）和 o3（82.1），在成本上有数量级优势
标准差最低（4.1），说明跨任务泛化最稳定——解决了现有方法"部分任务强、部分任务弱"的问题
数据过滤的贡献（+6.0）大于 RL（+3.5），说明高质量训练数据是基础
多样性过滤对跨任务泛化至关重要，去除后准确率下降 4.3 个百分点
解释质量奖励不仅提升了解释质量，还间接提升了检测准确率（+1.7），说明"解释→预测"的过程有内在正则化效果

亮点与洞察¶

"新手模型代理评估"是评估自由形式解释质量的优雅方案——将不可验证的文本质量问题转化为可验证的分类正确性问题
三维数据过滤的"标签→解释→多样性"递进式设计保证了训练数据的全面质量
仅 8B 参数超越闭源巨型模型，展示了"精心设计的训练策略 > 蛮力扩大参数"

局限与展望¶

解释质量奖励依赖"新手模型"的能力，如果新手模型本身有偏差，奖励信号可能失真
合成数据来源于现有开源数据集，可能继承其偏差
仅评测了英语任务，多语言泛化能力未验证
未来可探索更细粒度的解释评估（如句级别的证据锚定）

评分¶

新颖性: ⭐⭐⭐⭐ 解释质量奖励和三维过滤策略有创新，但整体框架（SFT+RL）是常见范式
实验充分度: ⭐⭐⭐⭐⭐ 12 个任务、多基线（含 GPT-5.2/o3）、详尽消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式完整
价值: ⭐⭐⭐⭐⭐ 8B 模型超越 GPT-5.2 且提供解释，实用性极强