跳转至

BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search

会议: ACL 2026
arXiv: 2601.11037
代码: https://github.com/Liushiyu-0709/BAPO-Reliable-Search (有)
领域: LLM Agent / 强化学习
关键词: agentic search, 边界感知, GRPO, IDK 拒答, 可靠性

一句话总结

针对 RL 训练后的 agentic search 模型几乎从不说"I DON'T KNOW"导致编造答案的可靠性问题,BAPO 在 GRPO 之上加入"基于组的边界感知奖励 + 自适应奖励调制器",让模型只在真正越界时才拒答,相对 GRPO 在四个多跳 QA 上把 reliability 平均提升约 9.7%,且仅用 5k 训练样本就超过 90k 样本训练的 Search-R1。

研究背景与动机

领域现状:基于 RL(GRPO)训练的 agentic search 模型(Search-R1、ReSearch、R1-Searcher、Tool-Star 等)通过 ReAct 式的 <think>/<search>/<answer> 交互显著提升了多跳 QA 准确率,已成为知识密集型 LLM 应用的主流路线之一。

现有痛点:这些 RL 模型几乎从不承认"不知道"。Qwen2.5-7B-Instruct 在 RL 之前还有 18.75% 的 IDK 率、精度 50.76(远高于准确率 41.25),但被 GRPO 训成 ReSearch-7B 后 IDK 率骤降到 3.65%,精度只剩 53.24——模型被奖励"逼着"对所有问题强行给答案,于是大量编造看似合理但错误的答案,用户又无法在冗长的多轮搜索链里验证,可靠性严重退化。

核心矛盾:标准 correctness 奖励同时鼓励"穷尽探索去答对"和"惩罚一切不确定表达",二者在难题上互斥。一种朴素修补——对 IDK 给 +0.5 固定奖励——立刻被模型当作偷懒捷径(IDK 率飙到 53.1%),换皮成 reward hacking,准确率反而下滑。

本文目标:(i) 如何为 agentic search 这种动态、与检索强耦合的"推理边界"构造可靠的学习信号;(ii) 如何把这个信号融进 RL 而不引发新的 reward hacking。

切入角度:把"边界"定义为可被组采样验证的属性——如果一组 G 条 rollout 没有一条答对,则该问题超出了当前策略的边界;同时观察到训练有明显的"探索-平台"两阶段,于是奖励应当阶段性、样本级地自适应开启。

核心 idea:用"只有当组内全军覆没时才给 IDK 奖励"的边界感知奖励,外加"探索期关 / 平台期开 + 高多样性样本关 / 低多样性样本开"的自适应调制器,把诚实拒答的能力训进 agentic search 模型,同时保住深度探索。

方法详解

整体框架

BAPO 建立在 GRPO 之上。对每个问题 \(x\),策略采样 \(G=8\) 条交错 <think>/<search>/<result>/<answer> 的轨迹 \(\{\tau_i\}_{i=1}^{G}\)。每条轨迹计算两项奖励:(1) correctness reward \(\mathcal{R}^{\textit{Correct}}\)(格式对则取 F1,否则 -1);(2) boundary-aware reward \(\mathcal{R}^{\textit{IDK}}\)(仅在整组无正确答案时,对 IDK 响应给 +0.5)。最终奖励 \(\mathcal{R}=\mathcal{R}^{\textit{Correct}}+\mathcal{R}^{\textit{IDK}}\) 进入 GRPO 的组归一化优势 \(A_i\) 中。一个"自适应奖励调制器"动态决定是否把 \(\mathcal{R}^{\textit{IDK}}\) 注入,避免在探索初期就把模型带歪。整套流水线只改奖励层,不改策略架构,无需冷启动 SFT。

关键设计

  1. 基于组的边界感知奖励 \(\mathcal{R}^{\textit{IDK}}\):

    • 功能:把"模型当前是否越界"形式化为组级别事件,仅在越界时奖励诚实拒答。
    • 核心思路:对组 \(\{\tau_i\}\),若 \(\forall i,\ \mathcal{R}^{\textit{Correct}}(\tau_i)\le 0\) 则视为整组全错,此时对 \(y_i=\text{IDK}\) 的样本给 \(\mathcal{R}^{\textit{IDK}}=0.5\cdot\mathbb{I}(y_i=\text{IDK})\);只要组内存在任一正确答案,该项即归零。这样 IDK 奖励与"题目可解性"解耦,避免简单题被偷懒。
    • 设计动机:边界不像参数化"知识边界"那样静态,它依赖 plan/检索/迭代推理的合成结果。用同策略多 rollout 的失败一致性作为越界代理,是一种无需外部标注的、可被 GRPO 优势归一化天然吸收的信号。
  2. Stage-level 调制器(探索期关 / 平台期开 + 动态重采样):

    • 功能:按训练阶段开关 \(\mathcal{R}^{\textit{IDK}}\),并在平台期把不确定题再多采几次以更准地判定边界。
    • 核心思路:早期作为"探索阶段"默认禁用 IDK 奖励,仅当组内 IDK 比例 \(\rho_{\text{IDK}}<\alpha=5\%\) 时短暂开启,防止 IDK 抢走探索机会;当验证集分数连续 5 步停滞,切换到"平台阶段"全量启用 \(\mathcal{R}^{\textit{IDK}}\)。平台期对组内全错的难题最多再重采 \(k=2\) 次(即等效 pass@24),直到出现 IDK 或正确答案才结算。
    • 设计动机:preliminary 实验显示朴素 IDK 奖励会让模型在还没学会解题前就先学会偷懒,把奖励 schedule 和学习曲线绑定可以"先学解题、再学认怂"。
  3. Sample-level 调制器(按 rollout 多样性自适应):

    • 功能:在平台期对单个样本细粒度决定是否启用 IDK 奖励。
    • 核心思路:以 \(|\{y_{1..G}\}|\ge G/2\) 作为"高多样性"判据——模型还在主动探索解空间,则关闭 \(\mathcal{R}^{\textit{IDK}}\) 以免过早收敛;反之多样性低说明模型已倾向于某个固定输出,此时开启 \(\mathcal{R}^{\textit{IDK}}\) 来强化边界感知。
    • 设计动机:rollout 一致性可视为模型置信度的代理,区分"探索中"和"已收敛"两种样本,让奖励在"该探索的地方继续探索、该认怂的地方学会认怂"。

损失函数 / 训练策略

策略目标仍是带 clip 的 GRPO(\(\epsilon=0.1\)),KL 系数 0.001,rollout 数 \(G=8\),温度 1.0,max tokens 8192,最多 3 次工具调用;优势 \(A_i\) 在组内做 z-score 归一化。检索环境基于 FlashRAG + E5-base-v2 + 2018 Wikipedia,top-5 文档;训练集仅 5k 条(来自 HotpotQA / 2WikiMultiHopQA),2 个 epoch,batch=64。

实验关键数据

主实验

Qwen2.5-7B-Instruct 上四个多跳 QA 的 Acc / Precision / Reliability(Rel.=\((1-\rho_{\text{IDK}})\cdot\text{prec}+\rho_{\text{IDK}}\cdot\text{acc}\)):

方法 HotpotQA Rel. MuSiQue Rel. 2Wiki. Rel. Bamboogle Rel. 平均
Search-R1 (90k 样本) 49.0 22.5 39.0 52.0 40.6
ReSearch (19k 样本) 61.5 31.0 54.2 54.4 50.3
GRPO (5k 样本) 60.0 29.5 59.5 57.6 51.7
Reliable RFT 40.2 18.5 23.9 49.4 33.0
Reliable TIR Prompt 60.6 27.2 43.3 50.5 45.4
BAPO (5k 样本) 65.5 36.6 63.3 61.2 56.7

BAPO 在仅 5k 样本下 reliability 平均比 GRPO 高 5.0(+9.7% 相对),且超过用 18×/4× 数据训练的 Search-R1/ReSearch;其策略是"略降准确率(-2.2)换大幅精度提升(+11.8)"。

消融实验

Qwen2.5-3B-Instruct,四数据集平均:

配置 Acc Prec \(\rho_{\text{IDK}}\) Reliability
BAPO 完整版 44.8 52.8 16.8% 51.3
w/o 边界感知奖励(换成固定 +0.5) 30.6 62.4 53.1% 44.8
w/o Sample 调制器 43.3 52.0 20.4% 50.1
w/o Sample + Stage 调制器 37.8 56.0 35.2% 49.0

关键发现

  • 把"组级触发"换成"固定 IDK 奖励"后 \(\rho_{\text{IDK}}\) 飙到 53.1%、Acc 跌 14 个点——验证了 reward hacking 的存在与组级触发的必要性。
  • Stage 调制器最关键:去掉两个调制器后 \(\rho_{\text{IDK}}\) 从 16.8% 翻倍到 35.2%、Acc 跌 7 个点,说明探索期必须屏蔽 IDK 奖励。
  • 超参 \(\alpha\) 敏感性:\(\alpha=0\)\(\rho_{\text{IDK}}=0\)(模型早期完全没机会学拒答,平台期也学不会),\(\alpha=0.05\) 取得最佳,\(\alpha\ge 0.2\) 又过分鼓励拒答;重采样 \(k\) 从 1→2 显著提升,\(k=3\) 几乎饱和。
  • 在 7B / 14B 上 BAPO 拒答时 GRPO 模型的错误率分别为 76.7% / 76.7%——拒答主要落在 GRPO 也答不对的题上,证明拒答是"理性"的而非乱拒。
  • 14B 训练曲线:探索期前 60 步 \(R^{\textit{Correct}}\) 0.3→0.5、\(\rho_{\text{IDK}}\) 20%→5%;切到平台期后 \(R^{\textit{IDK}}\) 升至 0.25–0.30,\(\rho_{\text{IDK}}\) 回升到 25%+。

亮点与洞察

  • 把"边界"操作化为组级事件:不用外部知识库、不用置信度建模,就用 GRPO 现成的 G 条 rollout 一致失败作为越界证据,几乎零额外成本地嵌进 GRPO 流水线,是非常优雅的工程取舍。
  • 训练阶段感知的奖励 schedule:揭示了一个被忽视的事实——同一个奖励在探索期是毒药、在平台期是良药,"什么时候给奖励"和"给什么奖励"同样重要,这一思路可迁移到任何多目标 RLHF 场景(如安全 vs 有用)。
  • rollout 多样性 = 隐式置信度:用 \(|\{y_{1..G}\}|\ge G/2\) 判断模型是否还在探索,免去显式置信度估计或额外采样,启发把"采样一致性"当作样本级别 RL 调度的便宜信号。
  • 5k 样本打过 90k 样本:说明 agentic search 的瓶颈早已不在数据规模,而在 reward shaping;reliability-first 的训练范式可能比堆数据更经济。

局限与展望

  • 仅在 Wikipedia local RAG 上评测,没有覆盖真实 web search 的噪声、动态性和延迟,工程落地时 IDK 触发逻辑可能需要重新校准;
  • 评测仅覆盖知识密集型 QA,对数学、代码、agentic web 任务等"非检索可解"问题,"组内全错"是否仍是可靠的越界代理尚未验证;
  • 实验最大 14B,未在 70B+ 验证;大模型 base reliability 本身更强,BAPO 的边际收益可能被压缩;
  • \(\rho_{\text{IDK}}\)\(\alpha\)\(k\) 等超参对训练动力学敏感,跨任务跨模型调参成本不容忽视;
  • 可延伸:把 stage-level 调制器变成验证集驱动的自动课程;把组级触发推广到工具调用失败、安全违规等其他"越界"信号。

相关工作与启发

  • vs Search-R1 / ReSearch / R1-Searcher: 它们只用 correctness reward 追准确率,BAPO 在保留它们 RL 架构的同时新增边界感知信号;BAPO 用 5k 样本就拿到更高 reliability。
  • vs BARREL (Yang et al., 2025a): BARREL 给 IDK 一个静态中等奖励 + 蒸馏推理轨迹,本文的消融恰恰证明静态 IDK 奖励等价于偷懒陷阱(\(\rho_{\text{IDK}}=53.1\%\)),BAPO 用动态组级触发解决了这一点。
  • vs Reliable RFT (拒绝采样 SFT): RFT 把 IDK 当样本灌进去导致严重过保守(Acc 大跌 27 点),BAPO 用 RL 在线建模边界、不破坏探索。
  • vs Knowledge / Capability Boundary (Zheng 2025, Zhang 2025c): 它们在静态参数知识或数学能力上定义边界,BAPO 处理的是 plan+检索+推理动态合成的"涌现边界",更贴合 agentic 场景。
  • vs 不确定性估计方法 (semantic entropy, P(True), verbalized confidence): 这些是事后检测,BAPO 是把"何时拒答"训进策略本身,二者正交可叠加。

评分

  • 新颖性: ⭐⭐⭐⭐ 组级边界触发 + 阶段/样本双调制器是新颖且简洁的奖励设计。
  • 实验充分度: ⭐⭐⭐⭐ 4 数据集 × 3 模型规模 × 消融 + 超参敏感性 + EM/LLM-judge 双指标 + 案例研究。
  • 写作质量: ⭐⭐⭐⭐ preliminary study 把动机讲得很清楚,框架图和阶段动力学图直观。
  • 价值: ⭐⭐⭐⭐ 让 agentic search 落地从"看起来很准"走向"敢于认怂",对生产环境有真实价值。