Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ihucMuRXcY
代码: 待确认
领域: LLM 推理 / 强化学习后训练
关键词: 对抗强化学习, 过程奖励, 切片级评判, GRPO, 数学推理

一句话总结¶

GAR 把一个 LLM 判别器和 LLM 推理器放进一个类 GAN 的在线对抗强化学习框架里联合训练，用"切片级"的稠密过程奖励补足稀疏的最终答案奖励，在多个数学推理基准上稳定提升 DeepSeek-R1-Distill 系列。

研究背景与动机¶

领域现状：带显式思维链的 LLM 在数学推理上已接近专家水平，但仍频繁犯过程性错误——算错数、逻辑跳步、看似合理实则无效的推导。为了给中间步骤打分，社区主要靠两条路：过程奖励模型（PRM）和 prompt 出来的 LLM-as-critic。

现有痛点：PRM 依赖昂贵的细粒度人工标注，标签主观且容易出现过/欠奖励的标定偏差；而 prompt-based 的 LLM 评判虽然便宜，判断却往往噪声大、前后不一致、区分度低。两条路都有一个共同的结构性问题——评判器是静态的，会随着策略更新而漂移失配，无法跟上推理器能力的演化。

核心矛盾：要么花大价钱买高质量的固定标注（贵且会过时），要么用便宜但不可靠的固定评判（噪声大）。两者都没法持续地、在线地给出与当前模型行为对齐的过程奖励。

本文目标：在不显著增加计算预算的前提下，提供稠密、标定良好、on-policy 的步级奖励，改善信用分配（credit assignment）与样本效率，同时避免奖励黑客（reward hacking）。

核心 idea：[对抗联合训练] 保留一个步级评判器（判别器），但让它和推理器通过类 GAN 的对抗 RL 共同进化——推理器追求被判别器持续认可的逻辑自洽步骤，判别器则不断重新标定到推理器当前的步骤分布，从而让奖励信号始终与模型能力对齐。

方法详解¶

整体框架¶

GAR 由两个 LLM 组成：推理器 \(M_r\)（生成思维链与最终答案）和判别器 \(M_d\)（逐切片评估推理质量）。训练分两阶段——先用 SFT 把判别器适配到"分析-评分-理由"的输出格式，再用 GRPO 把推理器和判别器在对抗 RL 下联合优化；推理时只用推理器。

flowchart LR
    Q[问题] --> R[推理器 Mr]
    R --> CoT[思维链]
    CoT --> S[切片切分<br/>L=320 token]
    S --> D[判别器 Md<br/>分析→yes/no→理由]
    D -->|切片奖励 Rs| R
    GT[标准答案] -->|Match 奖励 Rm| R
    Ref[参考推理切片] --> D
    D -->|判别奖励 Rd + 对齐奖励 Ra| D

关键设计¶

1. 计算高效的切片化评判：把长链拆成可核验的短切片。整条思维链动辄上千 token，判别器对全局打分既慢又不可靠、还难以定位错误。GAR 按分隔符切分推理轨迹，再合并相邻片段直到出现明显的新语义起点或达到预设长度 \(L=320\) token，得到长度可比、语义完整的切片。判别器对每个切片 \(i\) 给出二元奖励 \(r^s_i\in\{0,1\}\)（1 表示逻辑自洽），整体过程奖励取均值 \(R_s=\frac{1}{n}\sum_{i=1}^{n} r^s_i\)。这样做一举两得：短切片更容易判对，且 \(R_s\) 是连续值——即便所有最终答案都错，模型也能在 RL 中区分并强化更好的推理路径，缓解奖励稀疏。

2. 类 GAN 的双奖励对抗联合训练。推理器用 GRPO 优化，奖励线性组合精确匹配项与判别器过程项：\(R_{rea}=\lambda_1 R_m+\lambda_2 R_s\)。判别器则最大化两个互补信号：判别奖励沿用标准 GAN 目标 \(R_d=\mathbb{E}_{x\sim p_{ref}}[\log M_d(x)]+\mathbb{E}_{x\sim p_{gen}}[\log(1-M_d(x))]\)，逼它把模型生成切片和参考切片区分开；对齐奖励 \(R_a\) 衡量切片级判断与最终答案正确性之间的平均一致性，基于"正确答案更可能由逻辑自洽的推理支撑"这一假设。判别器总奖励为 \(R_{dis}=\lambda_3 R_d+\lambda_4 R_a\)。每个 batch 里把生成切片和等量参考切片混成平衡集训练判别器，再用打分回灌推理器，两个模型交替更新——判别器的对抗动力学被内嵌进训练过程，提供 on-policy 的细粒度信用分配。

3. 分析-评分-理由的截断式判别器，抑制开销与奖励黑客。直接让判别器对每个切片生成完整思维链会带来几十倍的评审开销。GAR 把判别器工作流改成"先简短分析→给出 yes/no 评分 \(r^s_i\)→附一句简短理由"，并把最大生成长度限制在 \(K=128\) token（理由主要用于可解释性，超出即截断）。实验表明截断到 128 token 几乎不掉点，却大幅加速训练。此外引入一个判别器 SFT 阶段：用 GPT-o4-mini 对 10% 训练数据的切片标注 yes/no 判断与简短理由，按 1:1 平衡正负类后微调判别器，使其适配新格式同时保留原模型能力。对齐奖励还充当正则——防止判别器漂向一味给正面评价、或推理器学出"看似合理实则空洞"的步骤。

实验关键数据¶

主实验表格¶

七个数学基准 Pass@1（每基准 30 次取平均）：

模型	AIME24	AIME25	MATH500	GSM8K	AMC23	Olympiad	LiveMath-Hard
DS-R1-Distill-Qwen-7B	54.0	38.0	94.3	90.6	90.3	52.5	18.4
+ GAR	61.3 (+7.3)	44.3 (+6.3)	94.8	92.2	92.5	54.8	24.9 (+6.5)
DS-R1-Distill-Llama-8B	43.7	30.3	88.1	82.9	84.5	48.2	18.5
+ GAR	53.7 (+10.0)	36.2	91.3	85.2	90.0	50.9	22.4

Qwen-7B 用 1.5B 判别器，Llama-8B 因无更小推理变体而用 8B 自身作判别器。

消融实验表格¶

逐组件叠加（基线 DS-R1-Distill-Qwen-7B）：

配置	AIME24	AIME25
1 基线	54.0	38.0
2 + 标准 RL（仅精确匹配）	56.3	40.7
3 + 固定标准 critic	56.7	40.4
4 + 固定 GAR 判别器（切片级）	58.6	42.0
5 + 可训练判别器（含对齐奖励）	59.4	42.8
6 + 可训练判别器（含判别奖励）	60.2	43.3
7 + 完整 GAR（对齐+判别+联合）	61.3	44.3

效率消融：截断版 GAR（19h）逼近无截断版（43h）的精度（61.3 vs 60.8），远快于后者；标准 RL 16h 仅 56.3。

关键发现¶

切片级评判是涨点主力：从行 2→4 可见，把评判器从"整体打分"重构为"切片级自洽判断+简短理由"带来稳定增益，证明稠密过程奖励改善了信用分配。
两路判别器奖励互补：对齐奖励和判别奖励单独都有效，组合最佳——前者锐化对错区分但依赖最终答案正确性而有噪声，后者把判别器拉向参考判断以稳定训练。
联合训练抬高天花板：行 4（固定判别器）→行 7（在线联合）的增益说明，判别器随推理器变强而学会检测更微妙的错误。
无熵坍缩的选择性熵机制：精度涨 +7.3 的同时整体平均熵几乎不变（5.20% vs 5.27%），在确定性切片上压低熵、在决策关键切片上保留探索。
可去掉最终答案奖励：仅用判别器对前 3 个切片打分（无 final-answer 奖励）即可达到 57.7 且训练仅 6h（标准 RL 56.3/16h），解锁开放式证明等无可验证答案的任务。

亮点与洞察¶

把"奖励模型漂移"问题转成了特性：传统做法怕评判器跟不上策略，GAR 直接让评判器和策略对抗共进化，漂移变成了"自动课程"——推理器越强，判别器越会挑刺。
切片是连接"长链可读性"和"稠密奖励"的巧妙粒度：既不像 token 级那么碎、噪声大，也不像整链那样信号稀疏，\(L=320\) 的长度阈值兼顾语义完整与评判可靠。
128 token 截断的工程洞察很实用：理由对训练信号几乎无贡献（只用于可解释性），截掉它换来 2 倍多的加速，是个高性价比的设计选择。
模块化判别器带来的延展性：判别器可换成 teacher 蒸馏、偏好对齐、证明式推理的奖励塑形器，框架的应用面比"提升数学推理"本身更宽。

局限与展望¶

判别器 SFT 依赖 GPT-o4-mini 标注：冷启动的格式适配仍需要一个强外部模型生成 yes/no 标签，未完全摆脱对高质量监督的依赖。
对齐奖励的噪声来源：\(R_a\) 依赖该轨迹最终答案的正确性，当最终答案碰巧对但过程错（或反之）时会给出误导信号，论文靠判别奖励来缓解但未根治。
实验集中在数学领域：虽然提到代码生成（附录）和证明式推理的潜力，正文主体仍是数学基准，跨领域泛化的充分性有待更多验证。
切片切分的启发式：基于分隔符+长度阈值的切分是规则式的，对不同书写风格的鲁棒性、以及"语义起点"判定的稳定性值得进一步研究。

评分¶

新颖性: ⭐⭐⭐⭐ 把 GAN 式对抗联合训练落到切片级过程奖励上，思路清晰且把"评判器漂移"转为优势，组合新颖。
实验充分度: ⭐⭐⭐⭐ 两个 backbone、七个基准、30 次取平均、组件/效率/熵多角度消融扎实；但主要局限在数学域，跨任务证据偏薄。
写作质量: ⭐⭐⭐⭐ 动机-挑战-方法对应清楚，图表与消融逻辑链完整，易读。
价值: ⭐⭐⭐⭐ 在强基线上稳定涨点且训练开销可比，模块化判别器延展性强，对 RL 后训练社区有实际参考价值。