LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards¶
会议: ICLR 2026
arXiv: 2603.02146
代码: real-absolute-AI/LongRLVR
领域: 强化学习
关键词: RLVR, 长上下文推理, 上下文定位, 可验证奖励, 梯度消失, GRPO
一句话总结¶
提出 LongRLVR,通过在 RLVR 训练中引入可验证的上下文奖励(context reward),解决长上下文场景下仅靠最终答案奖励导致的上下文定位(grounding)梯度消失问题,显著提升 LLM 长上下文推理能力。
研究背景与动机¶
RLVR 在长上下文中失效:RLVR(如 DeepSeek-R1)在数学/编程等依赖参数化知识的推理任务上表现优异,但在长上下文场景(需要从外部文档中检索和推理)中效果不佳
上下文定位是核心瓶颈:长上下文推理需要先准确定位相关证据(contextual grounding),再基于证据生成答案;仅靠最终答案奖励的信号过于稀疏,无法有效引导定位过程
梯度消失的理论证明:作者从理论上证明,outcome-only reward 导致 grounding head 的梯度被"激活事件"概率 Pr(ε_j) 缩放——即只有当其他所有必要证据已被选中时,选中某个证据 chunk 才能获得正梯度信号,这在训练初期几乎不可能发生
实验验证:naive RLVR 训练时,上下文召回率(contextual recall)快速停滞,直接限制了答案准确率的提升上限(Figure 1)
方法详解¶
整体框架¶
LongRLVR 要解决的问题是:直接把 RLVR 搬到长上下文场景,模型只拿"答案对不对"这一个稀疏奖励训练,根本学不会先从长文档里"找对证据"。它的做法是把长上下文策略显式拆成两个串联的"头"——Grounding Head \(\pi_\theta^{gnd}(Z|X,Q)\) 先从上下文 \(X\) 中挑出相关证据子集 \(Z\),Answer Head \(\pi_\theta^{ans}(y|X,Q,Z)\) 再基于这些证据生成答案 \(y\)。推理时模型先吐出一串 chunk 标识符完成定位,再生成最终答案;训练时则用一个新的奖励同时奖励"答对"和"找对地方",让定位过程也能拿到直接的学习信号。要做到这一点还需要带 ground-truth 证据标注的训练数据,这部分由一条合成数据流水线离线产出。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["上下文 X + 问题 Q"] --> B["Grounding Head<br/>从 X 定位证据子集 Z"]
B --> C["Answer Head<br/>基于 Z 生成答案 y"]
C --> D["可验证上下文奖励<br/>r_total = r_ans(y) + r_ctx(y,Z,G)"]
B -->|"选中的 chunk Z"| D
P["合成数据流水线<br/>长文档→语义聚类→生成 QA<br/>→两阶段拒绝采样"] -->|"标注证据 G"| D
D -->|"GRPO 策略梯度"| B
D -->|"GRPO 策略梯度"| C
关键设计¶
1. 可验证上下文奖励:给稀疏的答案信号补一条密集的定位梯度
只用答案奖励(outcome-only)在长上下文里失效有理论根因:作者证明(Proposition 1),选中某个 ground-truth chunk \(c_j\) 得到的正梯度会被一个"激活事件"概率 \(Pr(\varepsilon_j)\) 缩放——只有当 \(c_j\) 之外的其余必要证据都已被选中时,这块证据才显出价值;而训练初期一次 rollout 几乎不可能同时凑齐这些证据,于是 grounding head 的梯度被压到接近零,上下文召回率早早停滞、直接卡死答案准确率的上限。
LongRLVR 的修法是把总奖励拆成答案奖励加上下文奖励 \(r_{total}(y,Z) = r_{ans}(y) + r_{ctx}(y,Z,G)\),其中上下文奖励用一个"调制 F-score"设计:
前一项 \(\eta \cdot F_\beta\) 是无条件定位奖励,不管答案对错都按选中 chunk 与 ground-truth \(G\) 的 F-score 给分,保证 grounding 始终有密集信号;后一项 \((1-\eta) \cdot r_{ans} \cdot F_\beta\) 是协同成功奖励,只有答案正确才解锁完整定位分数,避免模型为刷召回而乱选 chunk、让定位和最终目标脱钩。权重取 \(\eta=0.1\)(密集信号只占小头、主要靠协同项对齐目标),F-score 取 \(\beta=2\) 偏重召回,因为多证据推理里漏一块证据比多选一块代价更高。它为什么有效有理论保证(Proposition 2):上下文奖励给每个 \(c_j\) 贡献的梯度里包含一项 \(\alpha_j \cdot Var(z_j)\),这一项只依赖该 chunk 自身选择概率的方差、与稀有的激活事件无关,因此哪怕其它证据还没选对,单独选对一块也能拿到稳定正梯度,从根上消除了上面那个梯度消失。
2. 合成数据流水线:用拒绝采样造出带 grounding 标注的长上下文 QA
上下文奖励需要每条样本都有 ground-truth chunk 标注 \(G\),而公开数据极少,所以作者自建了一条数据流水线喂给上面的训练。具体地,从 book / arXiv / code 三个领域采集 8K–64K token 的长文档,对每篇随机选 4 个语义聚类(每簇至少 4 个 chunk),让 Qwen3-235B 为每个聚类用思维链生成 3 个候选 \((Q, y, G)\) 三元组并标注必要证据,再让同一模型当裁判按"清晰度 / 正确性 / 证据相关性"打 1–10 分。随后两阶段拒绝采样选出每篇文档唯一的最佳 QA(先在每簇内选最高分,再在 4 个候选里选最优),并丢掉最终评分 < 9 的样本,得到 46K 条高质量长上下文 QA。消融显示过滤太简单的题有益、过滤过难的题反而有害(性能从 38.6 掉到 35.8),说明保留高难度样本对长上下文推理至关重要。
实验¶
主实验(Table 1)¶
| 模型 | RULER-QA (AVG) | LongBench v2 | LongReason (AVG) |
|---|---|---|---|
| Qwen2.5-14B-1M (base) | 75.20 | 40.2 | 73.55 |
| +RLVR | 73.17 | 39.8 | 72.33 |
| +LongRLVR | 88.90 | 46.5 | 78.42 |
| Qwen2.5-7B-1M (base) | 65.00 | 33.0 | 66.45 |
| +RLVR | 66.90 | 32.4 | 69.27 |
| +LongRLVR | 78.67 | 38.6 | 79.22 |
| LLaMA-3.1-8B (base) | 62.77 | 30.4 | 49.31 |
| +RLVR | 67.80 | 32.4 | 49.62 |
| +LongRLVR | 80.33 | 36.2 | 53.23 |
- Qwen2.5-14B-LongRLVR 超越 Qwen3-14B(RULER-QA 88.90 vs 87.60)和 QwenLong-L1-32B
- Qwen2.5-7B-LongRLVR 在 LongReason 上大幅超越 LLaMA-3.1-70B(79.22 vs 57.59)
消融实验¶
| 消融维度 | 关键发现 |
|---|---|
| 奖励组件(Figure 3) | answer-only 召回停滞→性能天花板;context-only 召回高但答案不准;两者协同最优 |
| 数据质量(Figure 4) | 拒绝采样 best > median > worst(38.6 vs 36.6 vs 34.8);过滤简单题有效,过滤难题有害 |
| η 混合因子(Figure 5a) | η=0.1 最优;η=0 初始信号太稀疏;η=1 定位与答案脱耦 |
| F-score β(Figure 5b) | β=2 最优;偏重召回对多证据推理至关重要 |
| chunk 数量(Figure 5c) | 16-128 chunks 性能稳健,模型学到语义级定位而非依赖分块策略 |
亮点¶
- 从理论(梯度消失证明)和实验双重角度揭示 outcome-only RLVR 在长上下文中的根本缺陷,分析严谨
- 上下文奖励的设计巧妙:调制 F-score 同时兼顾密集信号和目标对齐,避免 reward hacking
- 7B/14B 小模型训练后超越 70B+ 大模型甚至专用推理模型(Qwen3-14B),参数效率极高
- 对 chunk 数量的鲁棒性说明模型学到了真正的语义定位能力
局限性¶
- 需要 ground-truth grounding chunks 标注,依赖高质量合成数据流水线,泛化到无标注场景未验证
- 仅在 QA 任务上验证,对摘要、信息抽取等其他长上下文任务的效果未知
- 训练数据长度限于 8K-64K tokens,对更长上下文(如 256K+)的可扩展性未探讨
- F-score 奖励假设 chunk 粒度的标注是可用的,实际应用中获取此类标注可能代价高昂
- 理论分析基于独立 chunk 选择假设,实际 LLM 的自回归生成中 chunk 选择存在依赖
相关工作¶
- RLVR 推理增强: DeepSeek-R1, Kimi, DAPO 等——本文指出它们在长上下文中的局限
- 长上下文对齐: RoPE 扩展 (YaRN, LongRoPE)、长上下文 SFT/DPO——本文是 RLVR 路线的改进
- QwenLong-L1-32B: 基于推理模型的长上下文 RLVR——LongRLVR 用更小模型达到可比性能
- 长上下文 Agent: 分块-多轮协作方案——与本文正交,可结合使用
评分¶
⭐⭐⭐⭐ (4/5)
- 新颖性: ⭐⭐⭐⭐ — 理论驱动的奖励设计思路清晰,梯度消失分析是核心贡献
- 实验充分度: ⭐⭐⭐⭐ — 多模型、多基准、丰富消融,数据覆盖全面
- 写作质量: ⭐⭐⭐⭐⭐ — 理论与实验衔接紧密,论述逻辑清晰
- 实用价值: ⭐⭐⭐⭐ — 对长上下文 RLVR 训练有直接指导意义,但需合成标注数据