Learning to Reason for Hallucination Span Detection¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ECAK3P92eg
代码: 待确认
领域: 幻觉检测 / 强化学习
关键词: 幻觉跨度检测, 强化学习, GRPO, 推理, span-F1, RAGTruth

一句话总结¶

本文提出 RL4HS：用强化学习（基于 span-F1 奖励的 GRPO）训练一个会"先推理后定位"的 7B/14B 模型来精确检测幻觉跨度，并设计 Class-Aware Policy Optimization (CAPO) 修正奖励对"无幻觉"类的系统性偏置，在 RAGTruth 上超越 SFT、专有大推理模型（GPT-5、o3）。

研究背景与动机¶

领域现状：大多数幻觉检测工作把问题建模成二分类——判断输出"是否含幻觉"。但真实应用（摘要、长问答）往往需要知道具体哪一段是幻觉，才能评估内容可靠性，于是有了更细粒度的"幻觉跨度检测 (hallucination span detection)"任务。
现有痛点：跨度检测本质是一个多步决策过程——要先抽出输出里所有事实陈述，再逐条核对是否被输入上下文支持。已有的 CoT 工作只在二分类上验证了推理有用，没人探索过为跨度检测专门训练一个推理模型；而通用领域的大推理模型（数学/代码训练出来的）直接迁移过来表现也很差。
核心矛盾：CoT 推理在跨度检测上单次采样 (K=1) 几乎没有增益，但作者发现当多次采样取最优 (Span-F1@K) 时，CoT 随 K 增大显著拉开差距——说明推理"有潜力生成至少一个正确答案"，只是这种能力没被激发到首位输出。
本文目标：回答两个问题——(i) 学到的推理过程对跨度检测是否有用、怎么学？(ii) 是否必须为该任务专门学推理，还是通用推理模型就够？
核心 idea：用 RL 把"多采样才偶尔答对"的推理潜力固化成"首位就答对"的能力。以可验证的 span-F1 作为奖励跑 GRPO；并针对 span-F1 奖励的类别不对称问题提出 CAPO，给"无幻觉"样本的优势值乘一个缩小因子，避免模型走捷径（全预测无幻觉 → 高精度低召回的奖励 hacking）。

方法详解¶

整体框架¶

RL4HS 把跨度检测建模成生成式任务：给定上下文 \(c\) 和生成响应 \(y\)，模型先输出一段 CoT 推理（核对每条事实与上下文的一致性），再直接生成幻觉文本片段列表，最后通过字符串匹配回填每段在 \(y\) 中的 start/end 位置。训练用 GRPO，奖励直接取预测跨度与真值跨度的 span-F1；再用 CAPO 修正类别奖励失衡。

flowchart LR
    A[上下文 c + 响应 y] --> B[策略模型<br/>CoT 推理]
    B --> C[输出幻觉片段列表]
    C --> D[字符串匹配回填<br/>span start/end]
    D --> E[span-F1 奖励 r_span]
    E --> F[GRPO 组内归一化优势 A]
    F --> G[CAPO: 无幻觉类优势 ×α]
    G --> B

关键设计¶

1. 生成式建模 + Span-F1@K 动机验证：把"采样潜力"作为 RL 的切入点。 已有方法要么用判别式 token 级二分类、要么用生成式直接输出片段；作者选生成式，因为它天然适配 CoT 推理。关键观察来自一个预实验：对每个输入采样 \(K\) 次、按 span-F1 取最优，画出 Span-F1@K 曲线。在 \(K=1\) 时 CoT 几乎无增益，但随 \(K\) 增大，带 CoT 的曲线相比不带 CoT 显著抬升——这说明正确的推理路径已经存在于采样分布里，只是没排在首位。这条曲线正是用 RL（而非 SFT）的直接依据：RL 能把"偶尔采到的好答案"提升为稳定的首位输出。评测统一用数据集级 span-F1，\(\text{Precision}=|P\cap G|/|P|\)、\(\text{Recall}=|P\cap G|/|G|\)，其中 \(P\)、\(G\) 分别是预测和真值跨度的字符位置集合并集。

2. 可验证 Span-F1 奖励驱动的 GRPO：用相对组内排名替代价值网络。 训练框架选 GRPO 而非 PPO，省去显式价值网络，直接用组内相对得分算 baseline。优势定义为组内奖励的标准化值 \(A(\tau)=\big(R_\tau-\text{mean}\{R_i\}\big)/\text{std}\{R_i\}\)。奖励函数则直接挂在目标指标上：当真值与预测都为空（确实无幻觉且正确判空）时给满分 \(r_{span}=1\)，否则取 \(\text{span-F1}(\hat S, S)\)。这种设计让"有幻觉"和"无幻觉"两类都能被同一奖励统一处理，且奖励完全可验证、无需训练额外的奖励模型。

3. 诊断奖励不对称：定位 GRPO 的系统性偏置根因。 作者没有直接套 GRPO 就完事，而是先做了优势分布诊断（Figure 2/3）：发现无幻觉预测系统性地拿到比幻觉预测更高的优势值，与预测对错无关。根因在于 \(r_{span}\) 的内在不对称——无幻觉类只要输出空列表就能轻松拿高分，而幻觉类必须精确定位才有分，小错误就让 F1 奖励陡降。结果 GRPO 倾向于过度激励"判无幻觉"的保守行为，表现为高精度、被压制的召回，即一种 reward hacking。值得注意的是：单纯把"判空正确"的奖励值调小没用，因为 GRPO 的标准化步骤会把这种缩放抵消掉。

4. Class-Aware Policy Optimization (CAPO)：在优势层面而非奖励层面做类别再平衡。 既然在奖励值上做手脚会被标准化抵消，CAPO 改在优势值上动刀：只对属于无幻觉类的样本，给其标准化后的优势乘一个缩放因子 \(\alpha\)，即 \(\hat A(\tau)^{(nh)}=\big(\alpha\cdot R_\tau-\text{mean}\{R_i\}\big)/\text{std}\{R_i\}\)。取 \(\alpha=0.5\)（基于验证集选）小于 1，从而压低无幻觉类对策略更新的主导权，缓解其奖励稀疏带来的失衡。训练动态（Figure 4）证实：GRPO 召回随训练持续下滑，而 CAPO 在保持高精度的同时稳住召回，最终 span-F1 一路领先。

实验关键数据¶

主实验表格（RAGTruth，span-level F1，三任务平均）¶

模型	Sum. F1	QA F1	D2T F1	Avg. F1	Avg. P	Avg. R
GPT-4o-mini w/ CoT	38.4	27.3	33.7	33.1	37.1	30.2
GPT-5 w/ CoT	36.5	44.4	45.7	42.2	30.0	71.2
o3 w/ CoT	48.5	49.9	55.2	51.2	43.2	63.0
Qwen3-14B (推理)	35.8	30.6	34.8	33.7	36.2	32.0
SFT-7B	44.1	51.3	54.8	50.1	54.1	47.0
SFT-14B	52.7	53.9	59.6	55.4	57.4	53.8
Multi-View Attention-7B†	41.5	50.6	55.2	49.1	47.2	55.5
RL4HS-7B	50.9	56.4	60.4	55.9	62.9	51.2
RL4HS-14B	57.6	54.8	62.6	58.3	61.3	56.1

RL4HS-7B 平均 F1 (55.9) 超过 SFT-7B (50.1)，甚至超过 SFT-14B (55.4)；RL4HS-14B 进一步到 58.3，超越 GPT-5 (42.2) 与 o3 (51.2) 等更大的专有推理模型。

消融实验表格（CAPO vs GRPO，Qwen2.5-7B）¶

变体	Avg. F1	Avg. P	Avg. R
RL4HS-GRPO-7B	54.2	64.9	47.3
RL4HS-7B (CAPO)	55.9	62.9	51.2

GRPO 精度更高 (64.9) 但召回被压低 (47.3)；CAPO 用略降精度换来召回 +3.9 (47.3→51.2)，整体 F1 提升，印证奖励 hacking 被缓解。

关键发现¶

推理潜力靠 RL 激发：CoT 在 K=1 无用、Span-F1@K 随 K 显著抬升 → RL 把分布里的好答案提到首位。
领域内推理是必要的：留一任务 (leave-one-out) 训练的 RL4HS-OOD-7B 仍优于 QwQ-32B、Qwen3、GPT 系列，说明专门为跨度检测学推理比通用大推理模型更有效，且具一定跨任务泛化。
奖励缩放不能简单做在奖励值上：GRPO 的标准化会抵消，必须在优势层面 (CAPO) 干预。

亮点与洞察¶

诊断驱动的方法设计：先用优势分布图把"无幻觉类被系统性偏袒"这个隐患量化出来，再针对性提出 CAPO，逻辑闭环漂亮，而不是盲目堆 trick。
小模型胜大模型：7B 专训模型打败 GPT-5/o3，给"任务专用 RL 比通用推理模型更划算"提供了有力证据。
可验证奖励：直接用 span-F1 当奖励，无需训练奖励模型，工程上简洁可复现。
CAPO 的洞察具普适性：凡是用 GRPO 且存在"空答案/保守答案天然好拿分"的不对称任务（如检测、抽取类任务），都可能遇到同款奖励 hacking，CAPO 的优势层再加权思路可迁移。

局限与展望¶

只在 RAGTruth 单一基准、三个 CNLG 任务上验证，跨数据集/跨语言泛化未知。
缩放因子 \(\alpha=0.5\) 靠验证集手调，对不同任务/类别分布是否需要自适应调整未深入探讨。
生成式建模需"字符串匹配回填位置"，当幻觉片段与原文措辞不完全一致时定位可能失败。
只处理二类（幻觉/非幻觉）的不对称，未扩展到多类型幻觉（如实体错误 vs 关系错误）的细粒度奖励设计。

评分¶

新颖性: ⭐⭐⭐⭐ 首个用 RL+span 级奖励训练跨度检测推理模型，CAPO 对 GRPO 奖励不对称的诊断与修正有独立价值。
实验充分度: ⭐⭐⭐⭐ 覆盖专有/开源/SFT/通用推理多类 baseline，含 5 个研究问题 (Q1–Q5)、训练动态、留一泛化；但仅限 RAGTruth 单基准。
写作质量: ⭐⭐⭐⭐ 问题驱动结构清晰，优势分布诊断图把动机讲透。
价值: ⭐⭐⭐⭐ 7B 超 GPT-5/o3 的结果有说服力，CAPO 思路可迁移到其他不对称 RL 任务。