LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards¶

会议: ICLR 2026
arXiv: 2603.02146
代码: real-absolute-AI/LongRLVR
领域: 强化学习
关键词: RLVR, 长上下文推理, 上下文定位, 可验证奖励, 梯度消失, GRPO

一句话总结¶

提出 LongRLVR，通过在 RLVR 训练中引入可验证的上下文奖励（context reward），解决长上下文场景下仅靠最终答案奖励导致的上下文定位（grounding）梯度消失问题，显著提升 LLM 长上下文推理能力。

研究背景与动机¶

RLVR 在长上下文中失效：RLVR（如 DeepSeek-R1）在数学/编程等依赖参数化知识的推理任务上表现优异，但在长上下文场景（需要从外部文档中检索和推理）中效果不佳

上下文定位是核心瓶颈：长上下文推理需要先准确定位相关证据（contextual grounding），再基于证据生成答案；仅靠最终答案奖励的信号过于稀疏，无法有效引导定位过程

梯度消失的理论证明：作者从理论上证明，outcome-only reward 导致 grounding head 的梯度被"激活事件"概率 Pr(ε_j) 缩放——即只有当其他所有必要证据已被选中时，选中某个证据 chunk 才能获得正梯度信号，这在训练初期几乎不可能发生

实验验证：naive RLVR 训练时，上下文召回率（contextual recall）快速停滞，直接限制了答案准确率的提升上限（Figure 1）

方法详解¶

整体框架¶

LongRLVR 要解决的问题是：直接把 RLVR 搬到长上下文场景，模型只拿"答案对不对"这一个稀疏奖励训练，根本学不会先从长文档里"找对证据"。它的做法是把长上下文策略显式拆成两个串联的"头"——Grounding Head \(\pi_\theta^{gnd}(Z|X,Q)\) 先从上下文 \(X\) 中挑出相关证据子集 \(Z\)，Answer Head \(\pi_\theta^{ans}(y|X,Q,Z)\) 再基于这些证据生成答案 \(y\)。推理时模型先吐出一串 chunk 标识符完成定位，再生成最终答案；训练时则用一个新的奖励同时奖励"答对"和"找对地方"，让定位过程也能拿到直接的学习信号。要做到这一点还需要带 ground-truth 证据标注的训练数据，这部分由一条合成数据流水线离线产出。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["上下文 X + 问题 Q"] --> B["Grounding Head<br/>从 X 定位证据子集 Z"]
    B --> C["Answer Head<br/>基于 Z 生成答案 y"]
    C --> D["可验证上下文奖励<br/>r_total = r_ans(y) + r_ctx(y,Z,G)"]
    B -->|"选中的 chunk Z"| D
    P["合成数据流水线<br/>长文档→语义聚类→生成 QA<br/>→两阶段拒绝采样"] -->|"标注证据 G"| D
    D -->|"GRPO 策略梯度"| B
    D -->|"GRPO 策略梯度"| C

关键设计¶

1. 可验证上下文奖励：给稀疏的答案信号补一条密集的定位梯度

只用答案奖励（outcome-only）在长上下文里失效有理论根因：作者证明（Proposition 1），选中某个 ground-truth chunk \(c_j\) 得到的正梯度会被一个"激活事件"概率 \(Pr(\varepsilon_j)\) 缩放——只有当 \(c_j\) 之外的其余必要证据都已被选中时，这块证据才显出价值；而训练初期一次 rollout 几乎不可能同时凑齐这些证据，于是 grounding head 的梯度被压到接近零，上下文召回率早早停滞、直接卡死答案准确率的上限。

LongRLVR 的修法是把总奖励拆成答案奖励加上下文奖励 \(r_{total}(y,Z) = r_{ans}(y) + r_{ctx}(y,Z,G)\)，其中上下文奖励用一个"调制 F-score"设计：

\[r_{ctx}(y,Z,G) = \eta \cdot F_\beta(Z,G) + (1-\eta) \cdot r_{ans}(y) \cdot F_\beta(Z,G)\]

前一项 \(\eta \cdot F_\beta\) 是无条件定位奖励，不管答案对错都按选中 chunk 与 ground-truth \(G\) 的 F-score 给分，保证 grounding 始终有密集信号；后一项 \((1-\eta) \cdot r_{ans} \cdot F_\beta\) 是协同成功奖励，只有答案正确才解锁完整定位分数，避免模型为刷召回而乱选 chunk、让定位和最终目标脱钩。权重取 \(\eta=0.1\)（密集信号只占小头、主要靠协同项对齐目标），F-score 取 \(\beta=2\) 偏重召回，因为多证据推理里漏一块证据比多选一块代价更高。它为什么有效有理论保证（Proposition 2）：上下文奖励给每个 \(c_j\) 贡献的梯度里包含一项 \(\alpha_j \cdot Var(z_j)\)，这一项只依赖该 chunk 自身选择概率的方差、与稀有的激活事件无关，因此哪怕其它证据还没选对，单独选对一块也能拿到稳定正梯度，从根上消除了上面那个梯度消失。

2. 合成数据流水线：用拒绝采样造出带 grounding 标注的长上下文 QA

上下文奖励需要每条样本都有 ground-truth chunk 标注 \(G\)，而公开数据极少，所以作者自建了一条数据流水线喂给上面的训练。具体地，从 book / arXiv / code 三个领域采集 8K–64K token 的长文档，对每篇随机选 4 个语义聚类（每簇至少 4 个 chunk），让 Qwen3-235B 为每个聚类用思维链生成 3 个候选 \((Q, y, G)\) 三元组并标注必要证据，再让同一模型当裁判按"清晰度 / 正确性 / 证据相关性"打 1–10 分。随后两阶段拒绝采样选出每篇文档唯一的最佳 QA（先在每簇内选最高分，再在 4 个候选里选最优），并丢掉最终评分 < 9 的样本，得到 46K 条高质量长上下文 QA。消融显示过滤太简单的题有益、过滤过难的题反而有害（性能从 38.6 掉到 35.8），说明保留高难度样本对长上下文推理至关重要。

实验¶

主实验（Table 1）¶

模型	RULER-QA (AVG)	LongBench v2	LongReason (AVG)
Qwen2.5-14B-1M (base)	75.20	40.2	73.55
+RLVR	73.17	39.8	72.33
+LongRLVR	88.90	46.5	78.42
Qwen2.5-7B-1M (base)	65.00	33.0	66.45
+RLVR	66.90	32.4	69.27
+LongRLVR	78.67	38.6	79.22
LLaMA-3.1-8B (base)	62.77	30.4	49.31
+RLVR	67.80	32.4	49.62
+LongRLVR	80.33	36.2	53.23

Qwen2.5-14B-LongRLVR 超越 Qwen3-14B（RULER-QA 88.90 vs 87.60）和 QwenLong-L1-32B
Qwen2.5-7B-LongRLVR 在 LongReason 上大幅超越 LLaMA-3.1-70B（79.22 vs 57.59）

消融实验¶

消融维度	关键发现
奖励组件（Figure 3）	answer-only 召回停滞→性能天花板；context-only 召回高但答案不准；两者协同最优
数据质量（Figure 4）	拒绝采样 best > median > worst（38.6 vs 36.6 vs 34.8）；过滤简单题有效，过滤难题有害
η 混合因子（Figure 5a）	η=0.1 最优；η=0 初始信号太稀疏；η=1 定位与答案脱耦
F-score β（Figure 5b）	β=2 最优；偏重召回对多证据推理至关重要
chunk 数量（Figure 5c）	16-128 chunks 性能稳健，模型学到语义级定位而非依赖分块策略

亮点¶

从理论（梯度消失证明）和实验双重角度揭示 outcome-only RLVR 在长上下文中的根本缺陷，分析严谨
上下文奖励的设计巧妙：调制 F-score 同时兼顾密集信号和目标对齐，避免 reward hacking
7B/14B 小模型训练后超越 70B+ 大模型甚至专用推理模型（Qwen3-14B），参数效率极高
对 chunk 数量的鲁棒性说明模型学到了真正的语义定位能力

局限性¶

需要 ground-truth grounding chunks 标注，依赖高质量合成数据流水线，泛化到无标注场景未验证
仅在 QA 任务上验证，对摘要、信息抽取等其他长上下文任务的效果未知
训练数据长度限于 8K-64K tokens，对更长上下文（如 256K+）的可扩展性未探讨
F-score 奖励假设 chunk 粒度的标注是可用的，实际应用中获取此类标注可能代价高昂
理论分析基于独立 chunk 选择假设，实际 LLM 的自回归生成中 chunk 选择存在依赖

评分¶

⭐⭐⭐⭐ (4/5)

新颖性: ⭐⭐⭐⭐ — 理论驱动的奖励设计思路清晰，梯度消失分析是核心贡献
实验充分度: ⭐⭐⭐⭐ — 多模型、多基准、丰富消融，数据覆盖全面
写作质量: ⭐⭐⭐⭐⭐ — 理论与实验衔接紧密，论述逻辑清晰
实用价值: ⭐⭐⭐⭐ — 对长上下文 RLVR 训练有直接指导意义，但需合成标注数据