LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts¶

会议: ICLR 2026 Oral
arXiv: 2510.19363
代码: 有（附补充材料提供训练代码和 KeyChain 数据合成代码）
领域: 强化学习
关键词: long-context reasoning, reinforcement-learning, GRPO, multi-hop QA, emergent reasoning patterns

一句话总结¶

提出 LoongRL，通过构建 KeyChain 合成数据进行强化学习训练，使 LLM 涌现出 plan–retrieve–reason–recheck 的长上下文推理模式，仅在 16K 上下文上训练即可泛化到 128K，14B 模型达到 74.2 分接近 o3-mini (74.5) 和 DeepSeek-R1 (74.9)。

研究背景与动机¶

领域现状：当前 LLM 推理方面的进展（如 DeepSeek-R1、o1）主要集中在短上下文推理任务（数学、代码），通过 RL 引导模型产生更长的 chain-of-thought 和自我反思。对于长上下文推理——需要在数千 token 的外部输入中检索并整合信息——则基本未被探索。

现有痛点：(a) 现有长上下文模型虽然支持长窗口（128K+），但主要只擅长检索，在需要推理的场景下表现差；(b) 用于 RL 训练的高难度长上下文数据极度稀缺，答案形式多样导致验证困难；(c) 将 RL rollout 从短文本（<1K）扩展到 128K 上下文计算成本极高；(d) 仅在长上下文数据上训练会退化短上下文能力。

核心矛盾：长上下文推理需要独特的思维模式（先规划→再检索→再推理→再验证），但这种模式无法通过简单的 SFT 或 prompting 获得，需要 RL 来探索和激励。然而，适合 RL 训练的数据不存在——必须足够难以触发推理，必须需要从长上下文中检索信息，且答案必须可验证。

本文目标 (a) 如何设计高质量 RL 训练数据来激励长上下文推理？ (b) 如何在短上下文上训练但泛化到超长上下文？ (c) 如何保持短上下文能力不退化？

切入角度：作者观察到，如果 RL 数据本身就需要"追踪线索链→找到真正问题→检索→推理"这种多步操作，模型就会涌现出结构化的长上下文推理模式。这个模式一旦学会，就可以泛化到任意长度。

核心 idea：通过在短多跳 QA 中插入 UUID 链条隐藏真实问题（KeyChain），构造高难度 RL 训练数据，使 LLM 涌现 plan-retrieve-reason-recheck 推理模式并泛化到 128K 上下文。

方法详解¶

整体框架¶

LoongRL 想解决的是：怎样用一份"够难、可验证、又不昂贵"的数据，把长上下文推理这种特殊思维方式从模型里逼出来。它的做法是先把现成的短文本多跳 QA 改造成高难度长上下文题目（KeyChain），再用 GRPO 在这些题目上做多阶段 RL，同时掺入数学和检索数据守住短上下文能力。整条链路的输入是约 16K token 的长文本加一个问题，输出是带推理过程、最终答案放在 \boxed{} 里的回答。关键在于：训练长度始终压在 16K，但学到的推理模式能直接迁移到 128K。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["短文本多跳 QA<br/>(HotpotQA / MuSiQue / 2Wiki)"] --> B["KeyChain 数据构造<br/>插入干扰文档 + UUID 链条<br/>把真实问题藏成谜题"]
    B --> C["~16K 长文本训练样本<br/>隐藏问题 + 干扰链"]
    R["Two-way Substring 奖励<br/>双向子串匹配"] --> D
    C --> D["三阶段课程式 RL (GRPO)<br/>warm-up → Stage I<br/>→ Stage II 难样本挖掘"]
    M["混合数据配方<br/>+多跳 QA / 检索 / 数学"] --> D
    D --> E["涌现 plan → retrieve<br/>→ reason → recheck"]
    E --> F["16K 训练泛化到 128K"]

关键设计¶

1. KeyChain 数据构造：用 UUID 链条把"真正的问题"藏起来，逼模型先规划再检索

光往上下文里塞干扰文档，难度上不去——模型照样能直接检索作答。KeyChain 的核心是先把"问题是什么"本身藏成一道需要追踪的谜题。具体做法：先从 HotpotQA、MuSiQue、2WikiMultiHopQA 里筛中等难度的 QA 对（277K→72K，筛选方式是让 Qwen2.5-32B 各回答 8 次，只保留 pass rate 落在 0 到 1 之间的题，太简单太难都丢），然后一方面插入无关文档把上下文撑到约 16K token，另一方面插入多条 UUID key-value 链：每个 key 是 32 字符的 UUID（字符取自 0-9、A-F），对应的 value 里要么是下一个 key、要么是最终问题；其中一条链最终指向原始问题 \(o\_q_i\)，其余几条链则指向干扰问题。模型拿到初始 key 后，必须沿正确链条一跳一跳追下去，找到被隐藏的真实问题，再回到长上下文里检索相关信息、推理出答案。正是这个"先找到问题"的前置步骤，天然把模型推向 plan→retrieve→reason→recheck 的结构化思维——不是直接教它怎么推理，而是设计数据让它非推理不可。

2. Two-way Substring Exact Match：给开放式 QA 一个既不苛刻也不放水的奖励信号

通用 QA 的答案不像数学有唯一解，表达方式五花八门，所以奖励验证是个真问题：严格 exact match 会把"对但格式不同"的答案误判为错，F1 不够精确，LLM-as-a-judge 既效果一般又要额外挂一个模型。LoongRL 用双向子串匹配——预测答案 \(a\) 与抽取出的答案串 \(y_{\text{ans}}\) 只要一方是另一方的子串就给满分：

\[r_i = 1 \iff a \subseteq y_{\text{ans}} \lor y_{\text{ans}} \subseteq a\]

为了能稳定抽取，模型被要求把最终答案写进 \boxed{}。这样既容下了表述差异，又比 LLM judge 更快、更不容易被 reward hacking 钻空子，在宽容度和准确性之间找到了平衡。

3. 三阶段课程式 RL：从能答对的题起步，逐步逼到只剩硬骨头

如果一上来就喂 KeyChain，小模型会全军覆没——所有 rollout 都答错、reward 全为 0，根本产生不了有效梯度。LoongRL 因此把训练拆成由易到难的三段。Warm-up（42 步，只有 7B 需要）先在不含 KeyChain 的数据（标准多跳 QA + 检索 + 数学）上把基础能力练起来；Stage I（168 步）正式加入 KeyChain 数据，引导模型学出 plan-retrieve-reason-recheck 模式；Stage II（约 120-150 步）做 hard-mining——对每个样本生成 8 条 rollout，把全部答对的样本（约占 60-70%）直接丢弃，只在剩下的困难样本上继续训，避免在已经掌握的题上反复过拟合。14B 模型初始能力够强，可以跳过 warm-up 直接进 Stage I。

4. 混合数据配方：掺数学和检索，守住短上下文不退化

纯长上下文训练有个已知副作用——短上下文通用能力会退化（R1-distill 系列和 QwenLong-L1 都栽在这上面）。LoongRL 的训练集因此是个混合配方：7,500 条 KeyChain QA + 7,500 条标准多跳 QA + 1,024 条 needle retrieval + 5,000 道数学题（DAPO + MATH），全部限制在约 16K 上下文以内。数学题在这里起的是"压舱石"作用，让模型在学长上下文推理的同时保住通用推理能力。

损失函数 / 训练策略¶

采用 GRPO (Group Relative Policy Optimization)，group size \(G=8\)，学习率 \(1 \times 10^{-6}\)，cosine decay，KL penalty \(\beta=0.001\)，并去掉熵损失项以避免训练不稳定。最大输出长度 4,096 token，推理时温度 0.6、top-p 0.95。

实验关键数据¶

主实验¶

模型	LongBench v1 Avg	HotpotQA	2Wiki	MuSiQue	NarrativeQA	QASPER
o3-mini	74.5	83.0	89.0	64.0	60.7	60.5
DeepSeek-R1	74.9	82.7	91.3	72.2	66.9	61.4
QwenLong-L1-32B	70.1	80.7	89.1	65.2	58.6	56.7
Qwen2.5-7B-Instruct	48.9	69.5	50.5	34.0	44.5	46.0
LoongRL-7B	72.4	83.1	91.1	65.6	58.4	63.6
Qwen2.5-14B-Instruct	53.1	74.0	60.5	36.5	48.5	46.0
LoongRL-14B	74.2	82.2	93.3	67.5	63.4	64.5

消融实验¶

配置	LongBench v1 Avg	说明
Qwen2.5-7B-Instruct	48.9	基线
LoongRL-7B (no KeyChain)	66.2	用等量普通多跳 QA 替代 KeyChain
LoongRL-7B (full)	72.4	完整模型，KeyChain 贡献 +6.2%

奖励验证器	Avg	说明
F1 score	65.1	不够精确
LLM-as-a-judge	65.2	需额外模型且效果差
Exact match	69.2	过于严格
Two-way Substring (ours)	72.4	最优

关键发现¶

KeyChain 是核心贡献：去掉 KeyChain 后性能从 72.4 降至 66.2，差距巨大。KeyChain 训练的模型会涌现显式的 plan 步骤和 recheck 行为，而无 KeyChain 模型的推理和检索混在一起，缺乏规划
16K 训练泛化到 128K：LoongRL-7B 在 RULER 128K 上达到 76.8（基线 69.4），LoongRL-14B 达到 79.9（基线 73.6）。NarrativeQA 32K-64K 区间分别提升 +14.8% 和 +16.0%
奖励验证器对比：双向子串匹配显著优于 F1、LLM judge 和 exact match，说明对 QA 这类开放式答案，恰当的验证松弛很重要
Needle-in-a-haystack 完美通过：LoongRL-7B 在所有深度和长度上达到 100% 准确率，甚至基线 Qwen2.5-7B 和 QwenLong-L1-32B 都无法完全通过
短上下文能力保持：MMLU 提升 +2.8%/+1.1%，IFEval 仅微降 -0.3%/-2.6%，数学保持稳定

亮点与洞察¶

KeyChain 数据构造思路极其巧妙：通过在数据层面引入"先找问题再答题"的结构，自然引导模型涌现规划能力。这个思路可以迁移到其他需要结构化推理的任务——不是直接教模型怎么推理，而是设计数据让模型必须推理才能答题
短训练长泛化：仅 16K 训练泛化到 128K 是一个重要发现，说明推理模式一旦学会就是长度无关的。这大幅降低了长上下文 RL 训练的成本（否则 128K rollout 的 GPU 成本不可承受）
双向子串匹配：简单但有效的奖励设计，解决了 QA 答案多样性问题，避免了 LLM-as-a-judge 的额外开销和 reward hacking 风险。可直接复用到其他开放式 QA 的 RL 训练
多阶段课程学习：warm-up → KeyChain → hard-mining 的策略非常实用。特别是 Stage II 的 hard-mining（丢弃全答对样本）策略，避免在简单样本上浪费计算

局限与展望¶

仅评估 QA 类型任务：LongBench 和 NarrativeQA 主要是抽取式/生成式 QA，未测试长文档摘要、跨文档推理等其他长上下文任务类型
训练长度固定 16K：虽然 16K→128K 泛化效果好，但对于更长上下文（256K, 1M）是否仍有效未被验证
KeyChain 合成较人工：UUID 链条是完全人工构造的，与真实世界的"信息追踪"任务存在分布差距。能否设计更自然的 KeyChain 变体？
仅用 Qwen 系列实验：未在 LLaMA、Mistral 等其他架构上验证泛化性
涌现模式的分析不够深入：plan-retrieve-reason-recheck 模式是否总是稳定出现？failure case 长什么样？

评分¶

新颖性: ⭐⭐⭐⭐ KeyChain 数据构造非常有创意，但底层 RL 框架（GRPO）本身并非新方法
实验充分度: ⭐⭐⭐⭐⭐ 对比全面（含 o3-mini、R1），消融充分（KeyChain、验证器、训练策略），还有 128K 泛化和 NIAH 测试
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法描述流畅，图表直观，附录详尽含训练轨迹对比
价值: ⭐⭐⭐⭐⭐ 为长上下文 LLM 推理提供了高效且可复现的方案，KeyChain 数据构造可被广泛复用