M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization¶
会议: NeurIPS 2025
arXiv: 2512.13070
代码: GitHub
领域: 自监督
关键词: 自监督强化学习, 策略崩溃, 动量锚定, GRPO, 熵过滤
一句话总结¶
针对自监督强化学习中 LLM 策略崩溃和熵崩溃问题,提出动量锚定的 GRPO(M-GRPO)框架和基于 IQR 的低熵轨迹过滤方法,实现稳定训练和 SOTA 性能。
研究背景与动机¶
领域现状: 带可验证奖励的强化学习(RLVR)已成为 LLM 后训练增强推理能力的核心方法,但依赖大量人工标注数据和奖励模型基础设施,成本高且领域受限。因此学界探索自监督/无标签 RL 信号,如自一致性、自确定性作为奖励的方法(SRT、TTRL、Intuitor 等)。
现有痛点: 自监督 RLVR(SS-RLVR)在长期训练中存在致命的策略崩溃问题——训练奖励先升后急剧下降,验证集准确率同步恶化。同时伴随策略熵崩溃,模型过早变得过度自信。
核心矛盾: 增加 rollout 数量只能延缓而非阻止崩溃;自奖励机制内在不稳定,缺乏稳定的训练目标。
本文目标: 在不依赖真值标签的前提下,稳定 SS-RLVR 的训练过程,防止策略崩溃和熵崩溃。
切入角度: 从对比学习中动量编码器的成功经验(MoCo)出发,将动量机制引入策略优化。
核心 idea: 用缓慢演化的动量模型提供稳定的伪标签训练目标,用 IQR 过滤低熵轨迹保持策略多样性。
方法详解¶
整体框架¶
M-GRPO 由两个关键组件构成: 1. 动量锚定的自监督 RL 框架: 双模型(当前策略 \(\pi_{\theta_q}\) + 动量模型 \(\pi_{\theta_k}\))联合生成 rollout 并通过多数投票产生伪标签 2. IQR 自适应熵过滤器: 动态修剪低熵轨迹,防止策略过早收敛
关键设计¶
-
动量模型更新机制:
- 动量模型参数 \(\theta_k\) 不通过反向传播更新,而是当前策略参数的指数移动平均: \(\pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1-m) \cdot \pi_{\theta_q}\)
- \(m \in [0,1)\) 为动量系数(如 0.99),确保动量模型缓慢演化,提供稳定参考
- 灵感来自 MoCo 系列对比学习工作,首次将动量对比思想迁移到 RL 策略优化
-
联合 Rollout 与多数投票:
- 当前策略生成 \(M\) 个响应 \(\{y_i^q\}_{i=1}^M\),动量模型生成 \(N\) 个响应 \(\{y_j^k\}_{j=1}^N\)
- 合并为 \(G = M + N\) 大小的池
- 通过多数投票选出伪真值 \(y_v\):答案一致性最高的响应
- 动量模型的 rollout 加入投票池是关键——减少纯由快速变化的当前策略产生伪标签的噪声
-
归一化优势估计: 基于伪真值计算当前策略 \(M\) 个 rollout 的二值奖励(一致=1,不一致=0),按 GRPO 框架逐 prompt 归一化: \(\hat{A}_i = \frac{r(y_v, y_i^q) - \text{mean}(\{r(y_v, y_j^q)\}_{j=1}^M)}{\text{std}(\{r(y_v, y_j^q)\}_{j=1}^M)}\)
-
IQR 自适应熵过滤:
- 对每个输入的 \(G\) 条轨迹计算轨迹级熵
- 用四分位距法检测低熵异常值:\(T_{IQR} = Q_1 - k \cdot (Q_3 - Q_1)\),\(k=0.75\)
- 熵低于阈值的轨迹被剪除
- 相比静态阈值(如去掉底部 10%),IQR 方法自适应训练过程中熵分布的动态变化
损失函数 / 训练策略¶
学习目标为最大化优势加权的对数似然: $\(\mathcal{J}(\theta_q) = \mathbb{E}_{x \sim D, \{y_i^q\} \sim \pi_{\theta_q}}\left[\sum_{i=1}^M \hat{A}_i \log \pi_{\theta_q}(y_i^q | x)\right]\)$
训练细节: - 骨干模型: Qwen3-4B-Base - 训练数据: MATH 训练集(无真值标签) - batch size: 8 questions,每题 32 rollouts,温度 1.1 - 优化器: AdamW (lr=1e-6, cosine warmup) - KL 损失系数: 0.005 - 动量模型 rollout 数: \(N = G/4\)
实验关键数据¶
主实验¶
M-GRPO 在 Qwen3-4B-Base 上的表现(无真值标签训练):
| 方法 | MATH500 | AIME24 | AIME25 | GPQA Dia | GPQA | LiveCode |
|---|---|---|---|---|---|---|
| 原始模型 | 61.50% | 0.83% | 5.00% | 34.41% | 29.91% | 9.61% |
| SRT_Best (手选) | 79.20% | 12.50% | 11.67% | 38.26% | 35.04% | 19.69% |
| SRT_Final (崩溃后) | 47.50% | 7.50% | 8.75% | 28.54% | 25.89% | 16.12% |
| M-GRPO+IQR_Final | 79.75% | 14.58% | 14.17% | 39.65% | 35.49% | 27.12% |
M-GRPO 的最终检查点性能超过 SRT 的最佳手选检查点,无需人工干预。
消融实验¶
Rollout 数量缩放分析(M-GRPO+IQR):
| 配置 | MATH500 | AIME24 | AIME25 | GPQA Dia | mbpp |
|---|---|---|---|---|---|
| G=8 | 77.60% | 11.25% | 10.42% | 39.02% | 68.60% |
| G=16 | 79.75% | 14.43% | 10.00% | 39.65% | 70.40% |
| G=32 | 79.75% | 14.58% | 14.17% | 39.65% | 70.60% |
| G=256 | 79.50% | 16.67% | 14.17% | 40.66% | 70.40% |
性能从 G=8 到 G=32 显著提升,之后趋于饱和。
关键发现¶
- SRT 方法在所有 rollout 配置下最终都会崩溃,增加 rollout 只是延缓
- M-GRPO 在 Qwen3-1.7B、4B、8B 三个规模上均保持训练稳定
- 在 GPQA 上提升 +5.05%,LiveCode 上提升 +7.43%(相对 SRT_Best)
- IQR 过滤器有效维持更高的策略熵水平,熵下降更缓慢平稳
亮点与洞察¶
- 问题诊断清晰: 系统性地揭示了 SS-RLVR 中策略崩溃和熵崩溃的现象及其因果关系
- 动量机制迁移巧妙: MoCo 的动量思想从视觉对比学习迁移到 RL 策略稳定化,类比清晰
- 实用性强: 无需人工选择检查点,训练全程稳定,最终模型即最佳模型
- IQR 自适应过滤: 比固定阈值更鲁棒,随训练动态调整
局限与展望¶
- 仅在 MATH 数据集上验证,未扩展到其他自监督 RL 场景(如代码生成、对话等)
- 动量系数 \(m\) 的选择对性能影响未详细讨论
- 实验仅使用 Qwen3 系列模型,其他模型家族的泛化性未知
- 双模型架构增加了约 25% 的推理计算开销(动量模型的 \(N\) 次 rollout)
- 多数投票假设正确答案是主流答案,可能在分布外或困难样本上失效
相关工作与启发¶
- SRT (Sheikh et al.): 自训练 RL 方法,本文的直接基线,揭示了其崩溃问题
- GRPO/DAPO: 组相对策略优化框架,M-GRPO 在此基础上引入动量机制
- MoCo (He et al., 2020): 动量对比学习,M-GRPO 核心灵感来源
- 对其他需要自监督信号的 RL 场景(如多模态推理、工具使用学习)有借鉴意义
评分¶
- 新颖性: ⭐⭐⭐⭐ 动量+IQR 的组合设计简洁有效,问题分析深入
- 实验充分度: ⭐⭐⭐⭐ 多 benchmark、多规模验证,缩放分析完整
- 写作质量: ⭐⭐⭐⭐ 问题阐述清晰,图表直观
- 价值: ⭐⭐⭐⭐⭐ 解决了 SS-RLVR 中的关键实践障碍,对 LLM 自进化训练意义重大