BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs¶

会议: ICLR 2026
OpenReview: lUEedsO2RO
代码: 待确认
领域: LLM推理 / 事实可靠性 / 幻觉缓解
关键词: 大推理模型、知识边界、不确定性拒答、过度思考、GRPO

一句话总结¶

针对大推理模型（LRM）在事实问答上"宁可编也不说不知道"的毛病，本文先定位出两种由"事实性过度思考"引发的病态推理模式，再用"知识边界标注 → 边界感知 SFT → 基于可靠性奖励的 GRPO"三段式训练框架 BARREL，把 DeepSeek-R1-Distill-Llama-8B 的可靠性从 39.33% 拉到 61.48%，且准确率不降反升。

研究背景与动机¶

领域现状：以 OpenAI o1、DeepSeek-R1 为代表的大推理模型（Large Reasoning Models, LRMs）通过长链思维（Long-CoT）在数学、逻辑这类专门推理任务上表现亮眼。人们自然期待这种"会反复思考"的能力也能让模型在事实性任务上更靠谱。

现有痛点：事实表现并没有跟着涨，反而退步——faithfulness 幻觉率在上升，事实任务上的有用性在下降。具体表现为两点：一是 LRM 极少承认"我不知道"，碰到不掌握的知识也照样一本正经地编一个自信的答案；二是回答不一致，同一类问题这里答错、那里又答对。论文把事实可靠性拆成"knowing（模型是否真的掌握这块知识）"和"telling（能否把掌握的知识正确说出来）"两个层面，而当前 LRM 在这两件事上都做不好。

核心矛盾：作者通过初步实验发现了一个反直觉现象——事实性过度思考（factual overthinking）：LRM 在答错时消耗的推理 token 数，反而比答对时更多。也就是说，"想得越久"在事实问答里往往不是更准，而是更容易出错。这背后藏着两种病态推理模式：

临门一脚式猜测（Last-minute Guessing）：通常发生在模型不掌握的问题上。模型经过大量却没有结论的推理后，在结尾突然甩出一个投机性的答案——很像考生在交卷前慌乱地随手填一个。
二次思考式螺旋（Second-thought Spiraling）：通常发生在模型本来掌握的问题上。模型一开始就找对了答案，却继续过度分析，最终把自己正确的结论给推翻了。

本文目标：让 LRM 学会"边界感知"的简洁推理——掌握的题坚定地答对，不掌握的题主动承认"Sorry, I don't know"，而不是逢题必答。

切入角度：与其在推理之外挂一个外部置信度分类器或人工阈值，不如直接把"探索足够多的候选答案后再下结论、探索不出就拒答"这种推理纪律训练进模型自己的思维链里。作者进一步指出，模型不会拒答的根因在于当前 RL 范式只奖励"答对"、从不奖励"拒答"，于是模型被激励去回答每一个问题，无视自身的不确定性。

核心 idea：用"知识边界标注 + 针对两种病态模式定制的 SFT 推理轨迹 + 给拒答一个中等奖励的 GRPO"，教 LRM 在思维链内部完成事实可靠性的自我校准。

方法详解¶

整体框架¶

BARREL（Boundary-Aware Reasoning for Reliable and Factual LRMs）是一个三阶段训练框架，输入是一个事实问答数据集，输出是一个"会承认无知、答对题更坚定"的 LRM。三个阶段依次为：(1) 知识边界标注，判定每道题对目标模型是"已知"还是"未知"；(2) SFT 推理轨迹构建，按题型分别构造两类纠正病态模式的思维链并做监督微调；(3) GRPO 阶段，用一个规则化的可靠性奖励（答对高分、诚实拒答中分、答错低分）进一步强化模型在事实推理上的泛化能力。前两个阶段需要 known/unknown 标签，最后的 GRPO 阶段则不再依赖标签，靠奖励信号让模型自我调节。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["事实 QA 数据集"] --> B["知识边界标注<br/>K 提示 × L 次采样<br/>命中即已知"]
    B -->|已知题| C["SFT 推理轨迹构建<br/>锚定金答案+对比干扰项"]
    B -->|未知题| D["SFT 推理轨迹构建<br/>探索候选→承认不确定→拒答"]
    C --> E["边界感知 SFT<br/>只用已知题正确轨迹"]
    D --> E
    E --> F["GRPO 阶段<br/>规则奖励 rc>rs>rw"]
    F --> G["边界感知 LRM"]

关键设计¶

1. 知识边界标注：用采样命中率界定模型"会不会"

要教模型"该答的答、不该答的拒"，前提是先知道每道题对它到底是已知还是未知，否则在不掌握的题上硬训"答对"只会鼓励幻觉。BARREL 沿用 Gekhman 等人的采样策略：对数据集 \(D=\{(x_i,y_i^*)\}_{i=1}^N\) 中的每道题 \(x_i\)，用 \(K\) 个不同的 few-shot 提示 \(\{P_j\}_{j=1}^K\)、每个提示重复采样 \(L\) 次，得到答案集合 \(Y_i=\{y_i^{j,k}\}_{j=1,k=1}^{K,L}\)。只要其中存在任意一个采样答案在评测器 \(E\) 下匹配金答案，就把这道题标为"已知"，否则标为"未知"：

\[l_i=\begin{cases}\text{known},&\exists\,y\in Y_i,\ E(y,y_i^*)=1\\\text{unknown},&\text{otherwise}\end{cases}\]

这个"多次采样命中即已知"的判据，本质上是用模型自己的输出分布去探测它的知识边界——能在多次尝试里至少碰对一次，说明相关知识确实在模型里，只是"telling"不稳定；一次都碰不对，则更可能是真的"knowing"缺失。

2. 边界感知 SFT 轨迹构建：对症下药地纠正两种病态模式

这是 BARREL 纠正病态推理的核心。作者按题型构造两类截然不同的、有证据支撑的推理轨迹 \(T(x_i)\)（构造流程见 Algorithm 1，统一以 RECALL 召回背景知识开头）：

针对已知题（纠正 Second-thought Spiraling）：轨迹先检索并锁定带强证据 \(e^*\) 的金答案 \(\langle y^*,e^*\rangle\)，再附上若干证据薄弱的干扰候选 \(\{(y_j,e_j)\}\) 做对比，最后用 CONFIRM 以坚实证据重新确认、给出自信结论。关键在于"先锚定正确答案再去看别的候选"，避免模型在看了一堆干扰项后把对的答案给晃没了。
针对未知题（纠正 Last-minute Guessing）：轨迹同样先探索若干貌似合理的答案-证据对 \(\{(y_j,e_j)\}\)，但若始终找不到一个证据足够充分的答案，就显式 Acknowledge Uncertainty 记录不确定性，最终输出一个谨慎、确认过的拒答。这样模型学会"可以探索高概率路径，但不过度承诺、不幻觉"。

这些轨迹由 GPT-4 配合详细指令和 BARREL 范例生成，呈现 Long-CoT 风格。随后用 SFT 让模型模仿这种边界感知的审慎推理：对每道题构造完整输出 \(o_i^*=T(x_i)\,\|\,a_i\)，其中 \(a_i\) 对已知题是金答案、对未知题是不确定性拒答（"Sorry, I don't know"），最小化负对数似然 \(L(\theta)=-\sum_i\log P_\theta(o_i^*\mid x_i)\)。一个重要细节：SFT 只在已知题的正确答案上微调，因为在未知知识上微调反而会助长幻觉。

3. 给拒答一个中等奖励的 GRPO：让模型自我内化"准确率-拒答"权衡

SFT 只能教会基础的拒答模式，准确率偏低、且容易拒答过度。BARREL 接着用 GRPO 强化，核心是一个三档规则奖励——把回答分成答对、有效拒答、答错三类，分别给奖励 \(r_c\)、\(r_s\)、\(r_w\)：

\[R(o_i,y_i^*)=\begin{cases}r_c,&E(o_i,y_i^*)=1\\r_s,&o_i\ \text{含有效拒答短语}\\r_w,&\text{otherwise}\end{cases},\qquad r_c>r_s>r_w\]

实践中取 \(r_c=1\)、\(r_s=-0.5\)、\(r_w=-1\)。这个中间档 \(r_s\) 是全文的点睛之笔：答错的惩罚比诚实拒答更重，于是当模型不确定时，"拒答"比"硬答"更划算，从而被激励去承认知识边界。这恰好补上了前面指出的 RL 范式根因缺陷——普通 RL 从不奖励拒答，模型只能逢题必答。值得注意的是，GRPO 阶段的奖励是规则化的、不需要 known/unknown 标注，模型靠奖励信号自我调节，因而能更好地泛化。优化目标是标准的 GRPO 裁剪式 reward-weighted 目标：对每道题采样 \(G\) 条轨迹，用组内奖励归一化的优势 \(\hat{A}_{j,t}=(R(o_j,y_i^*)-\bar{R})/\sigma_r\) 做策略更新，并带 KL 正则约束。

损失函数 / 训练策略¶

SFT 目标：\(L(\theta)=-\sum_{i=1}^N\log P_\theta(o_i^*\mid x_i)\)，仅在已知题的正确轨迹上训练。
GRPO 目标：裁剪式 reward-weighted 目标（公式 7），优势用组内奖励标准化得到。
奖励取值：\(r_c=1,\ r_s=-0.5,\ r_w=-1\)。

实验关键数据¶

主实验¶

训练集为 TriviaQA、SciQ、NQ-Open 三个数据集，分别覆盖通识、科学、网页问答；评测从每个数据集测试集各采 1000 题，共 3000 题。指标三项：准确率 Acc.（\(N_c/N\)）、真实性 Truth.（\((N_c+N_r)/N\)，把诚实拒答也算"没说错"）、可靠性 Rel.（综合考虑答题率与真实性的加权指标，避免"全拒答刷满真实性"的漏洞）。下表为三个模型的平均结果（×100）：

模型	方法	Acc. ↑	Truth. ↑	Rel. ↑
DeepSeek-R1-Distill-Llama-8B	Distill	38.43	39.33	39.33
DeepSeek-R1-Distill-Llama-8B	Vanilla GRPO w/ Probing	40.30	58.67	55.29
DeepSeek-R1-Distill-Llama-8B	BARREL	40.70	70.40	61.58
DeepSeek-R1-Distill-Qwen-7B	Vanilla GRPO w/ Probing	17.93	59.83	42.28
DeepSeek-R1-Distill-Qwen-7B	BARREL	28.27	74.50	53.12
Qwen3-8B	Vanilla GRPO w/ Probing	41.63	63.90	58.94
Qwen3-8B	BARREL	50.50	80.40	71.46

可以看到 BARREL 在三个模型上都把可靠性大幅推高，且准确率不仅没掉、反而普遍优于蒸馏与外部置信度估计基线。相比靠外部探针/口头置信度的后处理方法（它们常因校准偏差损失准确率），BARREL 用 RL 直接让模型在思维链里内化"准确率-拒答"权衡，取得更优平衡。

消融实验¶

配置	关键现象	说明
完整 BARREL（SFT+GRPO）	高 Acc. + 高 Truth.	两阶段缺一不可
仅 SFT（SFT only）	Truth. 不错但 Acc. 偏低	SFT 只学到基础拒答，常拒答过度、推理仍有瑕疵
仅 GRPO（无 SFT/无中等奖励的 Vanilla GRPO）	几乎不拒答（Abstain≈0）	缺少拒答机制，无法表达不确定性
SFT 中调高 known:unknown 比例	Acc. ↑ 但 Truth. ↓	SFT 阶段存在明显权衡，单靠 SFT 难两全

关键发现¶

中等奖励是可靠性的关键：给诚实拒答一个介于"答对"和"答错"之间的奖励，是 BARREL 能学会主动拒答的根本；普通 GRPO 因不奖励拒答，Abstain 率几乎为 0。
GRPO 阶段不可省：SFT 能教会拒答模式但准确率受限且易过度拒答，GRPO 通过通用监督信号让模型自我调节、纠正 SFT 引入的过度拒答与瑕疵推理，同时缓解"事实性过度思考"。
SFT 阶段存在准确率-真实性天花板：随 known:unknown 比例上升准确率涨、真实性跌，单阶段难以兼得，必须靠后续 GRPO 突破。

亮点与洞察¶

"事实性过度思考"是个漂亮的诊断性发现：把"答错时用的 token 比答对时还多"量化出来，并归因到 Last-minute Guessing 与 Second-thought Spiraling 两种可命名、可对症的模式，让后续方法设计有的放矢，而不是泛泛地"提升事实性"。
把可靠性问题归因到 RL 奖励设计的结构缺陷：指出"模型不会拒答"的根因是 RL 从不奖励拒答，这个洞察很有迁移价值——任何想让模型学会"知之为知之"的 RL 训练，都可以借鉴"给诚实拒答一个中等正/弱负奖励"的思路。
把推理纪律训练进思维链内部，而非外挂置信度分类器或阈值，避免了后处理方法的校准偏差，是"让模型自己学会校准"的一个具体可行范式。
可迁移的 trick：用"多提示×多采样命中率"探测知识边界、SFT 只在已知题正确答案上微调以防幻觉——这两点几乎可以直接搬到其他事实对齐/拒答训练里。

局限与展望¶

依赖知识边界标注的质量：known/unknown 的判定基于采样命中率，受采样次数 \(K\times L\)、提示设计与评测器 \(E\) 的影响；边界标注噪声会直接传导到 SFT 轨迹的"该不该拒答"上。
轨迹由 GPT-4 生成：SFT 推理轨迹依赖更强模型蒸馏，可能引入 GPT-4 自身的事实偏差，且对没有强外部模型可用的场景不友好。
评测以字符串匹配为主：答案正确性靠 boxed 答案的字符串匹配判定，对开放式/多别名答案可能存在判定偏差。
规模与领域有限：受算力限制只在 7–8B 量级模型、三个事实 QA 数据集上验证；在更大模型、多跳推理或非英语事实任务上的效果仍待检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性地让 LRM 用推理来"承认无知"，并把根因定位到 RL 不奖励拒答这一结构缺陷。
实验充分度: ⭐⭐⭐⭐ 三模型三数据集、含基线对比与两阶段消融，但模型规模与任务类型偏有限。
写作质量: ⭐⭐⭐⭐⭐ 诊断（两种病态模式）→ 方法（三阶段）→ 验证（中等奖励消融）逻辑闭环、叙事清晰。
价值: ⭐⭐⭐⭐⭐ 事实可靠性是 LRM 落地的刚需，"给拒答中等奖励"的思路简单且高度可迁移。