Parallel-R1: Towards Parallel Thinking via Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=wOmjeBN6hP
代码: 待开源（作者承诺整理后放出）
领域: LLM推理 / 强化学习
关键词: 并行思考、强化学习、课程训练、奖励设计、数学推理

一句话总结¶

Parallel-R1 提出第一个用强化学习（而非纯 SFT）在真实数学推理任务上注入「并行思考」能力的框架：用「简单题 prompt 生成冷启动数据 → SFT 学格式 → 易题 RL 稳格式 → 难题 RL 提性能」的渐进课程绕过冷启动难题，配合交替奖励，在 AIME/AMC/MATH 上比直接 RL 的顺序基线平均高 8.4%，并发现并行思考可作为「中期训练探索脚手架」带来高达 42.9% 的提升。

研究背景与动机¶

领域现状：并行思考（parallel thinking）指模型在推理时并发展开多条独立推理分支、再汇总成一个结论，Gemini 在 IMO 上的成功就部分归功于此。当前激活这种能力主要有两条路：推理期策略（self-consistency、ToT、MCTS 等）只在推断时临时生效、并不把能力「内化」进模型；训练期方法则几乎都靠对合成轨迹做监督微调（SFT）。

现有痛点：基于 SFT 的训练方法有三个硬伤——(i) 依赖昂贵的多阶段流水线把长 CoT 改写成并行轨迹；(ii) 除了推理变快之外很难带来真正的性能增益；(iii) 通过 teacher-forcing 模仿已知模式，而非自由探索，导致模型只会复刻固定套路、泛化能力很差。

核心矛盾：RL 本该是更可扩展、靠探索发现新推理行为的路线，但当前自回归 LLM 在预训练/SFT 阶段从未见过并行思考轨迹，根本无法原生产出这类样本——于是 RL 必须有一个「冷启动」阶段先播种这种能力，而冷启动需要大规模高质量并行数据，这对复杂真实问题极其稀缺且难以合成。这正是为什么此前 RL 做并行思考只能局限在 CountDown 这类狭窄合成任务上。此外，奖励怎么设也是开放问题：只给结果奖励会让模型走捷径绕过真正的并行思考，强行给结构奖励又会让模型在不必要时也硬塞并行。

本文目标：在通用数学推理任务上，用 RL 真正「教会」LLM 自适应的并行思考，并搞清楚这种能力在训练中如何演化、为何有用。

切入角度：作者的关键观察是——虽然轻量 prompt 在 DAPO 这类难题上几乎生成不出合规的并行轨迹（0%），但在 GSM8K 这类简单题上却高度有效（83.7%）。既然简单题的冷启动数据「白捡」，就可以用它先把格式学会，再靠 RL 把能力迁移到难题，从而彻底避开为难题合成数据。

核心 idea：用「易题播种格式 + RL 在难题上探索泛化」的渐进课程，把并行思考从合成任务推广到真实数学推理，并把并行思考当作 RL 的探索脚手架。

方法详解¶

整体框架¶

Parallel-R1 要解决的是「自回归 LLM 没见过并行思考、RL 无从冷启动」这个死结。整体思路是把学习拆成三件互不干扰的事——学格式、稳行为、提推理——并用一条由易到难的课程把它们串起来：先用一个轻量数据流水线在简单题上批量造出冷启动语料 Parallel-GSM8K，再做 SFT 让模型会写并行思考的特殊标签，然后在简单题上做一轮小规模 RL 把格式用稳，最后在通用难题上做大规模 RL 真正提升推理水平。训练完的模型在推理时能自适应地在「关键步骤」触发并行分支、汇总后继续主线。作者还探索了两个变体：不改架构的自回归版 Parallel-R1-Seen，和用 Multiverse 注意力掩码显式隔离各路径的 Parallel-R1-Unseen。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["通用数学推理任务"] --> B["冷启动数据流水线<br/>简单题 prompt 生成 Parallel-GSM8K"]
    B --> C
    subgraph C["渐进式课程训练"]
    direction TB
    C1["阶段一·SFT 冷启动<br/>学并行思考格式"] --> C2["阶段二·易题 RL<br/>R并行 & R正确 稳格式"]
    C2 --> C3["阶段三·难题 RL<br/>仅 R正确 提推理"]
    end
    C --> D["推理：自适应并行思考<br/>Parallel / Path / Summary 标签"]
    C -.结构隔离变体.-> E["Multiverse 注意力隔离<br/>+ 交替奖励调度"]
    E --> D

关键设计¶

1. 轻量冷启动数据流水线：用简单题白捡高质量并行轨迹

冷启动需要的「大规模高质量并行思考语料」对难题几乎不可得，而此前方法靠复杂的多阶段流水线把长 CoT 改写成并行轨迹——这种改写出来的轨迹本质是 teacher-induced 的模仿样本，违背了「让 RL 通过探索自己长出并行思考」的科学目标。作者的破局点来自一个对比实验：同样的 prompt 模板和采样设置下，DeepSeek-R1-0528-Qwen-3-8B 在 GSM8K 上有 83.7% 的样本能自然产出合规并行思考格式，而在更难的 DAPO 上是 0.0%。于是他们只在简单题上做文章：用该模型给 GSM8K 的 7,473 条训练样本配上详细 prompt，生成并行思考轨迹，抽出其中非思考部分作为 gold 标注，构成冷启动语料 Parallel-GSM8K。对需要严格格式的结构化变体，还额外加一道 Parallel Thinking Format Check（Algorithm 1）过滤。这条流水线的价值不在于「能做」，而在于它只用最便宜的简单题就解决了「RL 没有起点」的根本障碍。

2. 渐进式课程训练：把学格式、稳行为、提推理拆成三段

直接在难题上做 RL，模型既要从零发现并行思考行为、又要提升数学能力，优化目标过重而难以收敛。Parallel-R1 把训练拆成三个递进阶段。冷启动阶段：在 Parallel-GSM8K 上做 SFT，让模型具备产出正确并行思考格式的基本能力。易题 RL：由于特殊标签从未在预训练中出现、SFT 后行为并不稳定，再用 GRPO 在同一批 GSM8K 题上做小规模 RL 强化格式，奖励取 \(R_{\text{final}} = R_{\langle\text{Parallel}\rangle}\,\&\,R_{\text{acc}}\)——只有「输出含至少一个并行思考单元且最终答案正确」才给 +1，否则 -1，用这种严格的二值奖励逼模型把并行格式用稳。难题 RL：在 DAPO 上做大规模 RL，这一阶段只用准确率奖励 \(R_{\text{acc}}\)，因为目标已转为纯粹提升推理性能，产出主力变体 Parallel-Seen。消融显示，去掉易题 RL 平均掉 2.3%，去掉冷启动 SFT 则并行行为几乎不被激活、策略退化回顺序生成——三段缺一不可。

3. 并行思考的形式化与控制标签：让模型自己决定何时分叉

人在遇到「关键步骤」（confusion/uncertainty）时会同时探索多条候选路径。作者把这一过程形式化为两阶段循环：Exploration——模型识别到关键步骤时暂停主线，并发生成 \(N\) 条独立推理分支；Summary——汇总所有分支、提炼各自独有洞见、化解冲突得到结论，再自动恢复主线并把结论注入。为落地，引入三组控制标签 <Parallel>…</Parallel>、<Path>…</Path>、<Summary>…</Summary>，分别对应探索阶段、各独立路径的隔离、以及汇总。推理时模型沿主线自回归生成，一旦预测出 <Parallel> 就暂停主线、在各 <Path> 块内并发生成多条线程，全部完成后自动合并成 <Summary>，再用汇总上下文恢复主线。与「开头就开多条、结尾才合并」或「固定间隔交换」的暴力并行不同，这里分叉与汇总的时机由推理进度本身决定，是真正自适应的。

4. Multiverse 结构隔离与交替奖励：显式隔离路径并平衡并行率与性能

自回归变体 Parallel-Seen 并不显式隔离各路径，训练时前向计算和反向梯度会跨路径互相干扰。结构化变体 Parallel-Unseen 借鉴 Multiverse，把归纳偏置直接写进注意力层：注意力掩码让 <Path> 块内的 token 只能看到自己这条路径和共享上下文，阻断兄弟路径间的信息泄漏；共享位置编码给每条路径分配一组互不相交的位置索引，使各并行路径能从相同位置开始解码而互不干扰；同时保留对共享 <Summary> 块的可见性以便跨路径整合。作者发现把 Seen 的课程直接套到结构化变体上无效（易题注意力掩码泛化不到难题），于是去掉阶段一 RL 并重设奖励：采用 交替奖励（S2），在固定 \(W=10\) 步窗口内，80% 的步用纯准确率奖励，20% 的步用分层奖励（含并行单元且答对 +1.2；不含并行但答对 +1.0；答错 -1.0）。这样既给并行思考一个「校准过的」激励，又不让它主导训练。消融印证了奖励设计的关键作用：纯准确率奖励并行率仅 13.6%，纯并行奖励并行率冲到 80.3% 却显著掉点，交替策略在 63.0% 并行率下取得最佳平衡。

损失函数 / 训练策略¶

RL 算法统一采用 GRPO（Group Relative Policy Optimization），rollout 走多轮交互框架，在「顺序生成 ↔ 并行探索 ↔ 顺序汇总」间交替。骨干为 Qwen-3-4B-Base，实现改自 VERL 官方 recipe，未做超参调优。冷启动 SFT：batch 128、lr 1e-5、weight decay 0.01、cosine 调度、warm-up 比例 0.1（Seen/Unseen 分别 58/230 步）。易题 RL：batch 1024、5 rollouts、lr 1e-6、35 步。难题 RL：DAPO 上 300 步、batch 512、8 rollouts、lr 1e-6。

实验关键数据¶

主实验¶

在 AIME25 / AIME24 / AMC23 用 Mean@16 与 Pass@16，MATH 用 Mean@1，骨干均为 Qwen-3-4B-Base。

方法	并行率	AIME25 (Mean@16)	AIME24 (Mean@16)	AMC23 (Mean@16)	MATH	Avg.
Qwen3-4B-Base	0.0	5.5	10.0	39.3	54.0	27.2
GRPO (DAPO)	0.0	14.8	18.5	63.6	83.5	45.1
GRPO + RL on GSM8K	0.0	13.3	18.8	66.4	82.6	45.3
Parallel-R1-Seen	27.3	19.2	19.4	70.5	86.7	48.9
Parallel-R1-Unseen (S1)	13.6	17.7	18.3	69.7	82.6	47.1
Parallel-R1-Unseen (S2)	63.0	19.0	16.3	67.5	84.5	46.8

Parallel-R1-Seen 平均分 48.9，比最强 RL 顺序基线（45.1）高约 8.4%（相对），且在 AIME25/MATH 上都是最佳；自回归版整体优于显式改架构的 Multiverse 版，说明结构修改虽仍优于顺序基线、但会给 RL 训练带来负担。

消融实验¶

配置	AIME25	AIME24	AMC23	MATH	Avg.
Parallel-R1-Seen（完整）	19.2	19.4	70.5	86.7	48.9
- 去掉易题 RL (w/o RL on GSM8K)	17.9	19.0	65.0	84.5	46.6
Parallel-R1-Unseen (S1)	17.7	18.3	69.7	82.6	47.1
- 给 Unseen 加易题 RL	14.4	12.9	52.3	74.4	38.5
- 去掉并行思考 prompt	20.4	16.5	66.7	84.8	47.1

奖励消融（Unseen S2 下）：纯 Accuracy 并行率 13.6%、Avg 较高但并行行为几乎消失；纯 Parallel 并行率冲到 80.3% 却明显掉点；交替策略并行率 63.0%、AIME25 达 19.0，取得最佳平衡。

关键发现¶

自回归 vs 结构化训练 recipe 相反：去掉易题 RL，自回归 Seen 平均掉 2.3%；但给结构化 Unseen 加同一段易题 RL 反而暴跌 8.6%（48.9→38.5 量级），因为易题上学到的注意力掩码泛化不到难题、过拟合到表面模式。两类变体需要不同的训练配方。
并行思考的角色会演化：<Parallel> 块的相对位置随训练步数单调后移——早期把并行当作高方差的「计算探索」去发现解，后期推理能力变强后转为先用单条高置信路径求解、再用并行做「多视角验证」的风险规避策略。
中期探索脚手架（最大彩蛋）：设计两阶段课程——Stage-1（0–200 步）用交替奖励猛推探索，Stage-2（200 步后）切回纯准确率奖励做利用。即便 Stage-2 里并行率持续下降，AIME25 准确率仍一路爬到 25.6%，比 GRPO 顺序基线高 42.9%。说明并行思考的收益不只来自显式结构，更来自它在探索期把策略推进到了一个更优的策略空间区域。
路径确有多样性：并行块内各路径的两两 BLEU（0.0627）与语义余弦相似度（0.6083）均低，说明分支不是简单复制，而是真正不同的推理轨迹。

亮点与洞察¶

「难题没数据就别在难题上造数据」：用 GSM8K 83.7% vs DAPO 0% 的悬殊对比，把冷启动彻底搬到简单题上、再靠 RL 迁移，是绕开「真实任务并行数据稀缺」最优雅的一招，可复用到任何「目标行为在难任务上难标注、但在易任务上易触发」的场景。
并行思考当「探索脚手架」是真正反直觉的洞见：最终模型并行率下降、性能反而更高，意味着并行结构的价值部分是「过程性」的——它在训练中期把策略带到更好的区域后即可功成身退。这把并行思考从一种「推理结构」重新定义成一种「RL 探索机制」。
交替奖励窗口（80% 准确 / 20% 分层并行）是平衡「结构 vs 性能」的实用 trick：把行为奖励限制在少数步内、并用 +1.2/+1.0/-1.0 的分层而非二值激励，避免模型为拿奖励无脑塞并行。
格式/行为/推理三件事分阶段学的课程拆解，对任何「模型从未见过的新输出格式 + 还要靠 RL 提性能」的任务都有借鉴意义。

局限与展望¶

作者把「中期脚手架」明确称为 preliminary evidence，200 步切换点是经验选的、并非理论最优，机制解释（policy space 更优区域）仍是假设。
实验仅在 Qwen-3-4B-Base 单一骨干、纯数学推理（答案为数字）任务上验证；为避免评测 artifact 还过滤掉了含 LaTeX 的题目、max response length 限到 3000，迁移到代码、开放域、更大模型的效果只在附录有初步迹象。
结构化 Multiverse 变体训练开销显著更大（~6 天 vs Seen 的 ~3.5 天，8×40GB），因为要在每个 RL rollout 步在线构造 4D 注意力掩码；且整体性能还不如不改架构的自回归版，结构隔离的收益与代价尚不划算。
冷启动数据由单一教师模型（DeepSeek-R1-0528-Qwen-3-8B）生成，并行思考的「风格」可能被教师偏置带偏，作者也承认这是需要 RL 探索去突破的地方。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一个在真实数学推理上用 RL 注入并行思考的框架，且「并行思考即探索脚手架」是真正新颖的视角。
实验充分度: ⭐⭐⭐⭐ 四个 benchmark + 多组消融 + 行为演化/多样性分析扎实，但限于单骨干单领域。
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，把「为何 RL 难、如何冷启动、奖励怎么设」讲得有条理。
价值: ⭐⭐⭐⭐⭐ 渐进课程 + 交替奖励 + 探索脚手架三个 takeaway 都可迁移到更广的 RL 推理训练。