Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ihucMuRXcY
代码: 待确认
领域: LLM 推理 / 强化学习后训练
关键词: 对抗强化学习, 过程奖励, 切片级评判, GRPO, 数学推理
一句话总结¶
GAR 把一个 LLM 判别器和 LLM 推理器放进一个类 GAN 的在线对抗强化学习框架里联合训练,用"切片级"的稠密过程奖励补足稀疏的最终答案奖励,在多个数学推理基准上稳定提升 DeepSeek-R1-Distill 系列。
研究背景与动机¶
领域现状:带显式思维链的 LLM 在数学推理上已接近专家水平,但仍频繁犯过程性错误——算错数、逻辑跳步、看似合理实则无效的推导。为了给中间步骤打分,社区主要靠两条路:过程奖励模型(PRM)和 prompt 出来的 LLM-as-critic。
现有痛点:PRM 依赖昂贵的细粒度人工标注,标签主观且容易出现过/欠奖励的标定偏差;而 prompt-based 的 LLM 评判虽然便宜,判断却往往噪声大、前后不一致、区分度低。两条路都有一个共同的结构性问题——评判器是静态的,会随着策略更新而漂移失配,无法跟上推理器能力的演化。
核心矛盾:要么花大价钱买高质量的固定标注(贵且会过时),要么用便宜但不可靠的固定评判(噪声大)。两者都没法持续地、在线地给出与当前模型行为对齐的过程奖励。
本文目标:在不显著增加计算预算的前提下,提供稠密、标定良好、on-policy 的步级奖励,改善信用分配(credit assignment)与样本效率,同时避免奖励黑客(reward hacking)。
核心 idea:[对抗联合训练] 保留一个步级评判器(判别器),但让它和推理器通过类 GAN 的对抗 RL 共同进化——推理器追求被判别器持续认可的逻辑自洽步骤,判别器则不断重新标定到推理器当前的步骤分布,从而让奖励信号始终与模型能力对齐。
方法详解¶
整体框架¶
GAR 由两个 LLM 组成:推理器 \(M_r\)(生成思维链与最终答案)和判别器 \(M_d\)(逐切片评估推理质量)。训练分两阶段——先用 SFT 把判别器适配到"分析-评分-理由"的输出格式,再用 GRPO 把推理器和判别器在对抗 RL 下联合优化;推理时只用推理器。
flowchart LR
Q[问题] --> R[推理器 Mr]
R --> CoT[思维链]
CoT --> S[切片切分<br/>L=320 token]
S --> D[判别器 Md<br/>分析→yes/no→理由]
D -->|切片奖励 Rs| R
GT[标准答案] -->|Match 奖励 Rm| R
Ref[参考推理切片] --> D
D -->|判别奖励 Rd + 对齐奖励 Ra| D
关键设计¶
1. 计算高效的切片化评判:把长链拆成可核验的短切片。整条思维链动辄上千 token,判别器对全局打分既慢又不可靠、还难以定位错误。GAR 按分隔符切分推理轨迹,再合并相邻片段直到出现明显的新语义起点或达到预设长度 \(L=320\) token,得到长度可比、语义完整的切片。判别器对每个切片 \(i\) 给出二元奖励 \(r^s_i\in\{0,1\}\)(1 表示逻辑自洽),整体过程奖励取均值 \(R_s=\frac{1}{n}\sum_{i=1}^{n} r^s_i\)。这样做一举两得:短切片更容易判对,且 \(R_s\) 是连续值——即便所有最终答案都错,模型也能在 RL 中区分并强化更好的推理路径,缓解奖励稀疏。
2. 类 GAN 的双奖励对抗联合训练。推理器用 GRPO 优化,奖励线性组合精确匹配项与判别器过程项:\(R_{rea}=\lambda_1 R_m+\lambda_2 R_s\)。判别器则最大化两个互补信号:判别奖励沿用标准 GAN 目标 \(R_d=\mathbb{E}_{x\sim p_{ref}}[\log M_d(x)]+\mathbb{E}_{x\sim p_{gen}}[\log(1-M_d(x))]\),逼它把模型生成切片和参考切片区分开;对齐奖励 \(R_a\) 衡量切片级判断与最终答案正确性之间的平均一致性,基于"正确答案更可能由逻辑自洽的推理支撑"这一假设。判别器总奖励为 \(R_{dis}=\lambda_3 R_d+\lambda_4 R_a\)。每个 batch 里把生成切片和等量参考切片混成平衡集训练判别器,再用打分回灌推理器,两个模型交替更新——判别器的对抗动力学被内嵌进训练过程,提供 on-policy 的细粒度信用分配。
3. 分析-评分-理由的截断式判别器,抑制开销与奖励黑客。直接让判别器对每个切片生成完整思维链会带来几十倍的评审开销。GAR 把判别器工作流改成"先简短分析→给出 yes/no 评分 \(r^s_i\)→附一句简短理由",并把最大生成长度限制在 \(K=128\) token(理由主要用于可解释性,超出即截断)。实验表明截断到 128 token 几乎不掉点,却大幅加速训练。此外引入一个判别器 SFT 阶段:用 GPT-o4-mini 对 10% 训练数据的切片标注 yes/no 判断与简短理由,按 1:1 平衡正负类后微调判别器,使其适配新格式同时保留原模型能力。对齐奖励还充当正则——防止判别器漂向一味给正面评价、或推理器学出"看似合理实则空洞"的步骤。
实验关键数据¶
主实验表格¶
七个数学基准 Pass@1(每基准 30 次取平均):
| 模型 | AIME24 | AIME25 | MATH500 | GSM8K | AMC23 | Olympiad | LiveMath-Hard |
|---|---|---|---|---|---|---|---|
| DS-R1-Distill-Qwen-7B | 54.0 | 38.0 | 94.3 | 90.6 | 90.3 | 52.5 | 18.4 |
| + GAR | 61.3 (+7.3) | 44.3 (+6.3) | 94.8 | 92.2 | 92.5 | 54.8 | 24.9 (+6.5) |
| DS-R1-Distill-Llama-8B | 43.7 | 30.3 | 88.1 | 82.9 | 84.5 | 48.2 | 18.5 |
| + GAR | 53.7 (+10.0) | 36.2 | 91.3 | 85.2 | 90.0 | 50.9 | 22.4 |
Qwen-7B 用 1.5B 判别器,Llama-8B 因无更小推理变体而用 8B 自身作判别器。
消融实验表格¶
逐组件叠加(基线 DS-R1-Distill-Qwen-7B):
| 配置 | AIME24 | AIME25 |
|---|---|---|
| 1 基线 | 54.0 | 38.0 |
| 2 + 标准 RL(仅精确匹配) | 56.3 | 40.7 |
| 3 + 固定标准 critic | 56.7 | 40.4 |
| 4 + 固定 GAR 判别器(切片级) | 58.6 | 42.0 |
| 5 + 可训练判别器(含对齐奖励) | 59.4 | 42.8 |
| 6 + 可训练判别器(含判别奖励) | 60.2 | 43.3 |
| 7 + 完整 GAR(对齐+判别+联合) | 61.3 | 44.3 |
效率消融:截断版 GAR(19h)逼近无截断版(43h)的精度(61.3 vs 60.8),远快于后者;标准 RL 16h 仅 56.3。
关键发现¶
- 切片级评判是涨点主力:从行 2→4 可见,把评判器从"整体打分"重构为"切片级自洽判断+简短理由"带来稳定增益,证明稠密过程奖励改善了信用分配。
- 两路判别器奖励互补:对齐奖励和判别奖励单独都有效,组合最佳——前者锐化对错区分但依赖最终答案正确性而有噪声,后者把判别器拉向参考判断以稳定训练。
- 联合训练抬高天花板:行 4(固定判别器)→行 7(在线联合)的增益说明,判别器随推理器变强而学会检测更微妙的错误。
- 无熵坍缩的选择性熵机制:精度涨 +7.3 的同时整体平均熵几乎不变(5.20% vs 5.27%),在确定性切片上压低熵、在决策关键切片上保留探索。
- 可去掉最终答案奖励:仅用判别器对前 3 个切片打分(无 final-answer 奖励)即可达到 57.7 且训练仅 6h(标准 RL 56.3/16h),解锁开放式证明等无可验证答案的任务。
亮点与洞察¶
- 把"奖励模型漂移"问题转成了特性:传统做法怕评判器跟不上策略,GAR 直接让评判器和策略对抗共进化,漂移变成了"自动课程"——推理器越强,判别器越会挑刺。
- 切片是连接"长链可读性"和"稠密奖励"的巧妙粒度:既不像 token 级那么碎、噪声大,也不像整链那样信号稀疏,\(L=320\) 的长度阈值兼顾语义完整与评判可靠。
- 128 token 截断的工程洞察很实用:理由对训练信号几乎无贡献(只用于可解释性),截掉它换来 2 倍多的加速,是个高性价比的设计选择。
- 模块化判别器带来的延展性:判别器可换成 teacher 蒸馏、偏好对齐、证明式推理的奖励塑形器,框架的应用面比"提升数学推理"本身更宽。
局限与展望¶
- 判别器 SFT 依赖 GPT-o4-mini 标注:冷启动的格式适配仍需要一个强外部模型生成 yes/no 标签,未完全摆脱对高质量监督的依赖。
- 对齐奖励的噪声来源:\(R_a\) 依赖该轨迹最终答案的正确性,当最终答案碰巧对但过程错(或反之)时会给出误导信号,论文靠判别奖励来缓解但未根治。
- 实验集中在数学领域:虽然提到代码生成(附录)和证明式推理的潜力,正文主体仍是数学基准,跨领域泛化的充分性有待更多验证。
- 切片切分的启发式:基于分隔符+长度阈值的切分是规则式的,对不同书写风格的鲁棒性、以及"语义起点"判定的稳定性值得进一步研究。
相关工作与启发¶
- 过程监督 / PRM:相比 Lightman et al. 的人工 PRM 和 Math-Shepherd 的 MC 自动标注,GAR 用在线联合训练替代静态标注,规避了标注成本与漂移失配。
- 自博弈 / 多智能体 / 博弈论训练:与 SPIN、SPAG、辩论式训练等"外部对手"路线不同,GAR 把对抗动力学内嵌进单条训练管线,由判别器与策略共进化提供 on-policy 信用分配。
- GAN 思想迁移到 RL 后训练:把 Goodfellow et al. 的判别器目标搬到推理切片的真/伪区分上,是"生成对抗"范式在 LLM reasoning 上的一次直接而有效的具体化。
- 启发:在任何"奖励模型 vs 策略漂移"的后训练场景里,让奖励模型在线对抗共进化,可能比反复重训固定 RM 更经济也更稳。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 GAN 式对抗联合训练落到切片级过程奖励上,思路清晰且把"评判器漂移"转为优势,组合新颖。
- 实验充分度: ⭐⭐⭐⭐ 两个 backbone、七个基准、30 次取平均、组件/效率/熵多角度消融扎实;但主要局限在数学域,跨任务证据偏薄。
- 写作质量: ⭐⭐⭐⭐ 动机-挑战-方法对应清楚,图表与消融逻辑链完整,易读。
- 价值: ⭐⭐⭐⭐ 在强基线上稳定涨点且训练开销可比,模块化判别器延展性强,对 RL 后训练社区有实际参考价值。