M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization¶

会议: NeurIPS 2025
arXiv: 2512.13070
代码: GitHub
领域: 自监督
关键词: 自监督强化学习, 策略崩溃, 动量锚定, GRPO, 熵过滤

一句话总结¶

针对自监督强化学习中 LLM 策略崩溃和熵崩溃问题，提出动量锚定的 GRPO（M-GRPO）框架和基于 IQR 的低熵轨迹过滤方法，实现稳定训练和 SOTA 性能。

研究背景与动机¶

领域现状: 带可验证奖励的强化学习（RLVR）已成为 LLM 后训练增强推理能力的核心方法，但依赖大量人工标注数据和奖励模型基础设施，成本高且领域受限。因此学界探索自监督/无标签 RL 信号，如自一致性、自确定性作为奖励的方法（SRT、TTRL、Intuitor 等）。

现有痛点: 自监督 RLVR（SS-RLVR）在长期训练中存在致命的策略崩溃问题——训练奖励先升后急剧下降，验证集准确率同步恶化。同时伴随策略熵崩溃，模型过早变得过度自信。

核心矛盾: 增加 rollout 数量只能延缓而非阻止崩溃；自奖励机制内在不稳定，缺乏稳定的训练目标。

本文目标: 在不依赖真值标签的前提下，稳定 SS-RLVR 的训练过程，防止策略崩溃和熵崩溃。

切入角度: 从对比学习中动量编码器的成功经验（MoCo）出发，将动量机制引入策略优化。

核心 idea: 用缓慢演化的动量模型提供稳定的伪标签训练目标，用 IQR 过滤低熵轨迹保持策略多样性。

方法详解¶

整体框架¶

M-GRPO 由两个关键组件构成： 1. 动量锚定的自监督 RL 框架: 双模型（当前策略 $\pi_{\theta_q}$ + 动量模型 $\pi_{\theta_k}$）联合生成 rollout 并通过多数投票产生伪标签 2. IQR 自适应熵过滤器: 动态修剪低熵轨迹，防止策略过早收敛

关键设计¶

动量模型更新机制:
- 动量模型参数 $\theta_k$ 不通过反向传播更新，而是当前策略参数的指数移动平均： $\pi_{\theta_k} \leftarrow m \cdot \pi_{\theta_k} + (1-m) \cdot \pi_{\theta_q}$
- $m \in [0,1)$ 为动量系数（如 0.99），确保动量模型缓慢演化，提供稳定参考
- 灵感来自 MoCo 系列对比学习工作，首次将动量对比思想迁移到 RL 策略优化
联合 Rollout 与多数投票:
- 当前策略生成 $M$ 个响应 $\{y_i^q\}_{i=1}^M$，动量模型生成 $N$ 个响应 $\{y_j^k\}_{j=1}^N$
- 合并为 $G = M + N$ 大小的池
- 通过多数投票选出伪真值 $y_v$：答案一致性最高的响应
- 动量模型的 rollout 加入投票池是关键——减少纯由快速变化的当前策略产生伪标签的噪声
归一化优势估计: 基于伪真值计算当前策略 $M$ 个 rollout 的二值奖励（一致=1，不一致=0），按 GRPO 框架逐 prompt 归一化： $\hat{A}_i = \frac{r(y_v, y_i^q) - \text{mean}(\{r(y_v, y_j^q)\}_{j=1}^M)}{\text{std}(\{r(y_v, y_j^q)\}_{j=1}^M)}$
IQR 自适应熵过滤:
- 对每个输入的 $G$ 条轨迹计算轨迹级熵
- 用四分位距法检测低熵异常值：$T_{IQR} = Q_1 - k \cdot (Q_3 - Q_1)$，$k=0.75$
- 熵低于阈值的轨迹被剪除
- 相比静态阈值（如去掉底部 10%），IQR 方法自适应训练过程中熵分布的动态变化

损失函数 / 训练策略¶

学习目标为最大化优势加权的对数似然： $$\mathcal{J}(\theta_q) = \mathbb{E}_{x \sim D, \{y_i^q\} \sim \pi_{\theta_q}}\left[\sum_{i=1}^M \hat{A}_i \log \pi_{\theta_q}(y_i^q | x)\right]$$

训练细节： - 骨干模型: Qwen3-4B-Base - 训练数据: MATH 训练集（无真值标签） - batch size: 8 questions，每题 32 rollouts，温度 1.1 - 优化器: AdamW (lr=1e-6, cosine warmup) - KL 损失系数: 0.005 - 动量模型 rollout 数: $N = G/4$

实验关键数据¶

主实验¶

M-GRPO 在 Qwen3-4B-Base 上的表现（无真值标签训练）：

方法	MATH500	AIME24	AIME25	GPQA Dia	GPQA	LiveCode
原始模型	61.50%	0.83%	5.00%	34.41%	29.91%	9.61%
SRT_Best (手选)	79.20%	12.50%	11.67%	38.26%	35.04%	19.69%
SRT_Final (崩溃后)	47.50%	7.50%	8.75%	28.54%	25.89%	16.12%
M-GRPO+IQR_Final	79.75%	14.58%	14.17%	39.65%	35.49%	27.12%

M-GRPO 的最终检查点性能超过 SRT 的最佳手选检查点，无需人工干预。

消融实验¶

Rollout 数量缩放分析（M-GRPO+IQR）：

配置	MATH500	AIME24	AIME25	GPQA Dia	mbpp
G=8	77.60%	11.25%	10.42%	39.02%	68.60%
G=16	79.75%	14.43%	10.00%	39.65%	70.40%
G=32	79.75%	14.58%	14.17%	39.65%	70.60%
G=256	79.50%	16.67%	14.17%	40.66%	70.40%

性能从 G=8 到 G=32 显著提升，之后趋于饱和。

关键发现¶

SRT 方法在所有 rollout 配置下最终都会崩溃，增加 rollout 只是延缓
M-GRPO 在 Qwen3-1.7B、4B、8B 三个规模上均保持训练稳定
在 GPQA 上提升 +5.05%，LiveCode 上提升 +7.43%（相对 SRT_Best）
IQR 过滤器有效维持更高的策略熵水平，熵下降更缓慢平稳

亮点与洞察¶

问题诊断清晰: 系统性地揭示了 SS-RLVR 中策略崩溃和熵崩溃的现象及其因果关系
动量机制迁移巧妙: MoCo 的动量思想从视觉对比学习迁移到 RL 策略稳定化，类比清晰
实用性强: 无需人工选择检查点，训练全程稳定，最终模型即最佳模型
IQR 自适应过滤: 比固定阈值更鲁棒，随训练动态调整

局限与展望¶

仅在 MATH 数据集上验证，未扩展到其他自监督 RL 场景（如代码生成、对话等）
动量系数 $m$ 的选择对性能影响未详细讨论
实验仅使用 Qwen3 系列模型，其他模型家族的泛化性未知
双模型架构增加了约 25% 的推理计算开销（动量模型的 $N$ 次 rollout）
多数投票假设正确答案是主流答案，可能在分布外或困难样本上失效

评分¶

新颖性: ⭐⭐⭐⭐ 动量+IQR 的组合设计简洁有效，问题分析深入
实验充分度: ⭐⭐⭐⭐ 多 benchmark、多规模验证，缩放分析完整
写作质量: ⭐⭐⭐⭐ 问题阐述清晰，图表直观
价值: ⭐⭐⭐⭐⭐ 解决了 SS-RLVR 中的关键实践障碍，对 LLM 自进化训练意义重大