Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models¶

会议: NeurIPS 2025
arXiv: 2505.24630
代码: GitHub
领域: 幻觉检测
关键词: 幻觉, 推理模型, 强化学习, 事实性验证, GRPO, 步级奖励

一句话总结¶

揭示了RL训练的推理模型（如DeepSeek-R1）比非推理模型产生更多幻觉，从理论上分析了三个根因（高方差梯度、熵约束、伪局部最优），并提出FSPO算法通过步级事实性验证调整token级advantage，在减少幻觉的同时保持甚至提升推理能力。

研究背景与动机¶

领域现状：以DeepSeek-R1、OpenAI o1为代表的推理模型通过RL（如GRPO）训练长链CoT推理，在数学、编程等复杂推理任务上取得突破性进展。

现有痛点：作者发现一个被忽视的严重问题——RL训练后的推理模型幻觉率显著上升。实证显示，R1-Distill-Qwen-7B在TruthfulQA上仅6.9%的truthful率（vs Qwen2.5-7B-Instruct的36.7%），在HaluEval-QA上仅11.6%（vs 48.0%）。推理模型的"自信推理"表象下隐藏着大量事实错误。

核心矛盾：现有RL训练仅基于最终答案正确性（binary outcome reward 0/1），完全忽略中间推理步骤的事实性。这种稀疏奖励信号导致三个理论问题：(1) 正确答案概率低时梯度方差极高→训练不稳定；(2) 需要高熵探索正确答案→增加幻觉概率；(3) 模型可能收敛到"自信但错误"的伪局部最优→零梯度无法逃逸。

本文目标 设计一个兼顾推理能力和事实性的RL训练算法，在提升数学推理性能的同时显著降低幻觉率。

切入角度：将步级事实性验证信号（NLI-based）融入GRPO的advantage计算，提供比纯outcome reward更密集的梯度信号。

核心 idea：用自动事实性验证器对每个推理句子打分，翻转"正确答案但含虚假推理"的token advantage，让模型学到"正确的推理过程"而非"碰巧正确的答案"。

方法详解¶

整体框架¶

FSPO在GRPO基础上增加步级事实性反馈。输入是问题 \(x\) + 关联evidence \(\mathcal{K}\)（如Wikipedia片段），模型生成包含推理链 \(\{z_1,...,z_N\}\) 和最终答案 \(y\) 的输出。系统通过两个奖励信号训练：(1) 答案正确性奖励 \(\mathcal{R}_{\text{answer}} \in \{0, 1\}\)；(2) 步级事实性奖励 \(\mathcal{R}_{\text{factuality}}(z_j) \in \{-1, 0, 1\}\)（蕴含/中立/矛盾）。

关键设计¶

步级事实性验证器:
- 功能：对推理链中每个句子 \(z_j\) 判断其与evidence \(\mathcal{K}\) 的关系
- 核心思路：使用HHEM-2.1（自然语言推理模型）自动判断每个句子是被evidence蕴含（+1）、中立（0）还是矛盾（-1），中立包括连接词、探索性语句如"Aha"、"Wait"等
- 设计动机：比outcome-only reward密集得多的梯度信号，直接解决Theorem 4.1的高方差问题
事实性感知的Advantage调整:
- 功能：根据句子级事实性分数翻转或保持GRPO计算的token advantage
- 核心思路：设 \(A_i\) 为GRPO原始advantage，对每个token \(o_{i,t} \in z_j\)：当 \(A_i > 0\) 但 \(\mathcal{R}_{\text{factuality}}(z_j) = -1\) 时（正确答案但虚假推理），翻转为 \(-A_i\)；当 \(A_i < 0\) 但 \(\mathcal{R}_{\text{factuality}}(z_j) = 1\) 时（错误答案但正确推理步骤），翻转为 \(-A_i\)（鼓励）
- 设计动机：解决"reward hacking"——模型可能通过错误推理碰巧得到正确答案，传统GRPO会奖励这些虚假推理token。FSPO确保只有事实正确的推理步骤被强化
混合训练数据策略:
- 功能：混合知识密集型QA数据（2K HotpotQA）和数学推理数据（8K SimpleRL）
- 核心思路：QA数据提供事实性训练信号，数学数据保持推理能力。FSPO仅对QA部分计算事实性奖励，数学部分仅用answer reward
- 设计动机：仅2K事实性数据即可显著降低幻觉，不损害数学推理

理论分析（三个定理）¶

Theorem 4.1：binary reward下梯度方差 \(\propto p(1-p)\|\nabla\log\pi\|^2\)，当正确率 \(p\) 小时方差极高→训练不稳定
Theorem 4.2：为避免陷入零奖励需保持高熵探索 \(H_\theta(x) \geq H_{\min}(\epsilon)\)→增加幻觉概率
Theorem 4.3：确定性输出错误答案的策略是驻点（梯度为零），binary reward无法逃逸

训练策略¶

基于verl框架，batch size 8，每prompt 8个rollout，最大长度2048
学习率4e-7，KL系数1e-3，clip ratio 0.2
1个epoch训练，混合HotpotQA(2K) + SimpleRL(8K)

实验关键数据¶

主实验¶

模型	GSM8K	MATH500	TruthfulQA↑	HaluEval-QA↑	HalluQA↑
Qwen2.5-7B-Base	65.2	35.7	38.2	48.0	39.5
R1-Distill-Qwen-7B	84.3	92.8	6.9	11.6	3.1
FSPO (Qwen-Base)	89.5	75.5	58.4	83.0	52.0
Llama3.1-8B-Inst	77.5	33.1	26.4	36.7	12.2
R1-Distill-Llama-8B	82.1	89.1	8.8	14.6	4.6
FSPO (Llama-Inst)	86.2	68.3	41.1	67.1	42.0

关键对比：R1-Distill-Qwen-7B的幻觉率极高（TruthfulQA仅6.9%），FSPO将其从6.9%提升至58.4%，同时GSM8K还超过了蒸馏模型。

消融实验¶

配置	MATH-500	HaluEval-QA↑	说明
GRPO (answer only)	74.2	62.0	仅答案正确性奖励
GRPO w/ factuality reward	74.8	72.0	加入事实性奖励但不调advantage
FSPO (full)	75.5	83.0	完整方法：advantage翻转

关键发现¶

推理模型（R1-Distill系列）在所有幻觉基准上表现远差于非推理模型，验证了"推理模型幻觉更多"的核心发现
仅2K事实性QA数据即可显著降低幻觉，4K/8K反而过多→数学推理性能下降
FSPO对GRPO和Reinforce++两种RL算法都有效，验证了通用性
事实性分数在训练过程中稳步上升，而response长度基本不变，说明FSPO提升的是质量而非长度

亮点与洞察¶

理论+实证的双重论证：三个定理清晰解释了为什么binary reward的RL会导致幻觉，不是简单加正则化而是从根源分析问题
Advantage翻转机制极其巧妙——当答案正确但推理含虚假句子时，翻转该句子token的advantage为负值，直接惩罚"碰巧正确但推理错误"的行为。这是对GRPO的最小改动但最大效果的修改
2K数据即有效的发现对实际部署很有价值——不需要大规模标注事实性数据
揭示了RL训练的推理模型的一个fundamental trade-off：推理能力↑ 但事实性↓，这对整个reasoning LLM社区是重要警示

局限与展望¶

事实性验证依赖evidence（Wikipedia片段），对无外部知识库的场景（如纯数学推理）不直接适用
HHEM-2.1验证器本身有误差，可能错判事实性→需要更强的验证器
仅在7B/8B规模验证，32B+规模的效果未知
MATH-500上FSPO（75.5%）远低于R1-Distill-Qwen-7B（92.8%），说明在纯数学推理上FSPO还是有代价的
理论分析仅覆盖binary reward，对更复杂的reward shaping场景的分析可进一步扩展

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统揭示并理论分析RL推理模型的幻觉问题，advantage翻转设计新颖
实验充分度: ⭐⭐⭐⭐ 多模型多基准全面评估+消融+训练动态分析，但缺乏大模型验证
写作质量: ⭐⭐⭐⭐⭐ 理论→实证→方法→实验的逻辑清晰，图表丰富直观
价值: ⭐⭐⭐⭐⭐ 对整个reasoning LLM社区敲响幻觉警钟，FSPO是实用且高效的解决方案